Когато попитате някого за снимка, той/тя може да ви каже много неща, в детайли, т.е. може да отговаря на въпроси за тази снимка.

Екип от изследователи от Microsoft, заедно с колеги от Университета Carnegie Mellon, са създали система, която използва компютърно зрение, задълбочено учене и разбиране на езика, за да анализира снимки и да отговаря на въпроси, точно както хората правят, съобщава Microsoft.

Способността да се отговаря на въпроси е от решаващо значение при развиването на изкуствен интелект. Подобен пробив може да доведе до възможности за създаване на системи, които предвиждат човешките нужди.

Новата система може да захрани всички видове приложения, например предупредителна система за колоездачи. С прикачена камера, която постоянно снима заобикалящата среда на велосипедиста, системата може да си задава въпроси като: “Какво има отляво зад мен?” или “Има ли други колоездачи близо до мен, които аз може да не виждам?”

Отговорите на тези въпроси могат да бъдат автоматично преведени на велосипедиста като даване на упътвания как да избегне инциденти чрез синтезатор на говор.

MSR-dogs-computer-vision-layering (1)
Източник: blogs.microsoft.com

Моделът, създаден от Xiaodong He, Li Deng и Jianfeng Gao – изследователи от Deep Learning Technology Center на Microsoft Research, и Zichao Yang и Alex Smola, от университета Carnegie Mellon – прилага разсъждения в много стъпки, за да се достигне до отговори за снимките. За пример е дадена горната снимка. Предполага се, че някой човек иска да знае “Какво има в коша на колелото?” Системата първо ще забележи определени специфики – колело, кош и какво има в коша. След това обхватът на разсъжденията се свива до това какво има в коша. Отговорът: Кучета.

Източник: blogs.microsoft.com
Източник: blogs.microsoft.com

“Хората се съсредоточават върху това какво е нужно, за да отговорят на тези и други въпроси,” коментира He. “С тази система, снимката се изпраща към неутрални мрежи, които решават коя част от нея е свързана с въпроса, и извличат нужната информация.”

“Ние използваме задълбочено учене на различни етапи: за извличане на визуална информация, за представяне смисъла на въпроса в естествен език и за фокусиране на вниманието върху по-малки области на снимката в две отделни стъпки, за да се получи по-прецизен отговор,” казва Deng.

Въпреки че може да звучи просто за хората, за компютрите научаването на език и намирането на отговори в снимка е много сложен процес. Използването на задълбочени неутрални мрежи може да помогне в тази насока. За изследователите това е много важно, за да се създаде изкуствен интелект на компютър.

 

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *