Броят на приложенията и значението на гласовите интерфейси нараства бързо

Съдържание

голяма четворка
Американците искат да купуват
Измийте, изпечете, почистете!
Стара концепция. Най-накрая дойде ли нейното време?
технически труден въпрос
Глас? Графични изкуства? Или може би и двете?
Внимавайте за безопасността!

Американско семейство в Портланд, Орегон наскоро научи, че гласовият асистент на Алекс записва техните лични разговори и ги изпраща на приятел. Собственикът на къщата, наречен от медиите Даниел, каза пред репортери, че „никога няма да включи това устройство отново, защото не може да й се вярва“.

Alexa, предоставен от високоговорители Echo (1) и други джаджи в десетки милиони домове в САЩ, започва да записва, когато чуе името си или „повикващата дума“, произнесена от потребителя. Това означава, че дори ако думата "Alexa" е спомената в телевизионна реклама, устройството може да започне да записва. Точно това се случи в този случай, казва Amazon, хардуерният дистрибутор.

„Останалата част от разговора беше интерпретирана от гласовия асистент като команда за изпращане на съобщение“, се казва в изявление на компанията. „В един момент Алекса силно попита: „На кого?“ Продължаването на семейния разговор за подови настилки от твърда дървесина трябваше да бъде възприето от машината като елемент от списъка с контакти на клиента.” Поне така смята Amazon. Така преводът се свежда до поредица от инциденти.

Тревогата обаче остава. Защото по някаква причина, в къща, в която все още се чувствахме спокойни, трябва да влезем в някакъв „гласов режим“, да гледаме какво казваме, какво излъчва телевизорът и, разбира се, какъв е този нов високоговорител на гърдите на чекмеджета казва . нас.

Въпреки това, Въпреки технологичните несъвършенства и опасенията за поверителността, с нарастването на популярността на устройства като Amazon Echo, хората започват да свикват с идеята да взаимодействат с компютрите, използвайки гласа си..

Както Werner Vogels, главен технически директор на Amazon, отбеляза по време на сесията си за AWS re:Invent в края на 2017 г., технологията досега ограничава способността ни да взаимодействаме с компютрите. Ние въвеждаме ключови думи в Google с помощта на клавиатурата, тъй като това все още е най-разпространеният и лесен начин за въвеждане на информация в машина.

Фогелс каза. -

голяма четворка

Когато използвахме търсачката на Google на телефона, вероятно отдавна забелязахме знак за микрофон с призив за разговор. Това Google сега (2), който може да се използва за диктуване на заявка за търсене, въвеждане на съобщение чрез глас и т.н. През последните години Google, Apple и Amazon значително се подобриха технология за гласово разпознаване. Гласови асистенти като Alexa, Siri и Google Assistant не само записват гласа ви, но и разбират какво им казвате и отговарят на въпроси.

Google Now е достъпен безплатно за всички потребители на Android. Приложението може например да настрои аларма, да провери прогнозата за времето и да провери маршрута в Google maps. Разширение за разговор на Google Now състояния Google Асистент () – виртуална помощ на потребителя на оборудването. Предлага се предимно на мобилни и умни домашни устройства. За разлика от Google Now, той може да участва в двупосочен обмен. Асистентът дебютира през май 2016 г. като част от приложението за съобщения на Google Allo, както и в гласовия високоговорител на Google Home (3).

3. Google Home

Системата IOS също има свой собствен виртуален асистент, Siri, която е програма, включена в операционните системи на Apple iOS, watchOS, tvOS homepod и macOS. Siri дебютира с iOS 5 и iPhone 4s през октомври 2011 г. на конференцията Let's Talk iPhone.

Софтуерът е базиран на разговорен интерфейс: той разпознава естествената реч на потребителя (с iOS 11 е възможно и ръчно въвеждане на команди), отговаря на въпроси и изпълнява задачи. Благодарение на въвеждането на машинно обучение, асистент във времето анализира личните предпочитания потребителят да предостави по-подходящи резултати и препоръки. Siri изисква постоянна интернет връзка – основните източници на информация тук са Bing и Wolfram Alpha. iOS 10 въведе поддръжка за разширения на трети страни.

Още един от големите четири Кортана. Това е интелигентен личен асистент, създаден от Microsoft. Поддържа се на платформи Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android и iOS. Cortana беше представена за първи път на конференцията за разработчици на Microsoft Build през април 2014 г. в Сан Франциско. Името на програмата идва от името на герой от поредицата игри Halo. Cortana се предлага на английски, италиански, испански, френски, немски, китайски и японски.

Потребители на вече споменатата програма Alexa те също трябва да вземат предвид езиковите ограничения - цифровият асистент говори само английски, немски, френски и японски.

Виртуалният асистент на Amazon беше използван за първи път в интелигентните високоговорители Amazon Echo и Amazon Echo Dot, разработени от Amazon Lab126. Той позволява гласово взаимодействие, възпроизвеждане на музика, създаване на списък със задачи, настройка на аларма, стрийминг на подкаст, възпроизвеждане на аудиокниги и информация за времето, трафика, спорта и други новини в реално време, като новини (4). Alexa може да контролира множество интелигентни устройства, за да създаде система за домашна автоматизация. Може да се използва и за удобно пазаруване в магазина на Amazon.

4. За какво потребителите използват Echo (Според изследвания)

Потребителите могат да подобрят изживяването на Alexa, като инсталират Alexa "skills" (), допълнителни функции, разработени от трети страни, по-често наричани приложения като метеорологични и аудио програми в други настройки. Повечето устройства на Alexa ви позволяват да активирате вашия виртуален асистент с парола за събуждане, наречена .

Amazon определено доминира на пазара на интелигентни високоговорители днес (5). IBM, която въведе нова услуга през март 2018 г., се опитва да влезе в първите четири Помощник на Уотсън, предназначена за компании, които искат да създадат свои собствени системи от виртуални асистенти с гласово управление. Какво е предимството на решението на IBM? Според представители на компанията, на първо място, за много по-големи възможности за персонализиране и защита на поверителността.

Първо, Watson Assistant не е с марка. Компаниите могат да създават свои собствени решения на тази платформа и да ги етикетират със собствена марка.

Второ, те могат да обучават своите помощни системи, използвайки свои собствени набори от данни, което IBM казва, че улеснява добавянето на функции и команди към тази система в сравнение с други технологии на VUI (гласов потребителски интерфейс).

На трето място, Watson Assistant не предоставя на IBM информация за активността на потребителите - разработчиците на решения на платформата могат да запазят ценни данни само за себе си. Междувременно всеки, който изгражда устройства, например с Alexa, трябва да е наясно, че техните ценни данни ще се озоват в Amazon.

Watson Assistant вече има няколко реализации. Системата беше използвана например от Harman, който създаде гласов асистент за концептуалния автомобил Maserati (6). На летището в Мюнхен асистент на IBM захранва робот Pepper, за да помага на пътниците да се придвижват. Третият пример е Chameleon Technologies, където гласовата технология се използва в интелигентен домашен измервател.

6. Асистент на Watson в концептуален автомобил на Maserati

Струва си да добавим, че основната технология тук също не е нова. Watson Assistant включва възможности за криптиране за съществуващи продукти на IBM, Watson Conversation и Watson Virtual Agent, както и API за езиков анализ и чат.

Amazon е не само лидер в технологията за интелигентни гласове, но я превръща в директен бизнес. Някои компании обаче са експериментирали с интеграцията на Echo много по-рано. Sisense, компания в индустрията за бизнес бизнес и анализи, представи интеграцията на Echo през юли 2016 г. От своя страна стартъпът Roxy реши да създаде свой собствен софтуер и хардуер с гласово управление за индустрията на гостоприемството. По-рано тази година Synqq представи приложение за водене на бележки, което използва обработка на глас и естествен език за добавяне на бележки и записи в календара, без да се налага да ги въвеждате на клавиатура.

Всички тези малки предприятия имат високи амбиции. Най-вече обаче те научиха, че не всеки потребител иска да прехвърля данните си към Amazon, Google, Apple или Microsoft, които са най-важните играчи в изграждането на платформи за гласова комуникация.

Американците искат да купуват

През 2016 г. гласовото търсене представлява 20% от всички мобилни търсения в Google. Хората, които използват тази технология ежедневно, посочват нейното удобство и многозадачност сред най-големите й предимства. (например възможността за използване на търсачка, докато шофирате кола).

Анализаторите на Visiongain оценяват текущата пазарна стойност на интелигентните дигитални асистенти на $1,138 млрд. Има все повече такива механизми. Според Gartner, до края на 2018 г 30% от нашите взаимодействия с технологиите ще бъде чрез разговори с гласови системи.

Британската изследователска фирма IHS Markit изчислява, че пазарът на дигитални асистенти, задвижвани от изкуствен интелект, ще достигне 4 милиарда устройства до края на тази година и този брой може да нарасне до 2020 милиарда до 7 г.

Според доклади на eMarketer и VoiceLabs, 2017 милиона американци са използвали гласов контрол поне веднъж месечно през 35,6 г. Това означава увеличение от почти 130% спрямо предходната година. Само пазарът на дигитални асистенти се очаква да нарасне до 2018% в 23. Това означава, че вече ще ги използвате. 60,5 милиона американци, което ще доведе до конкретни пари за техните производители. RBC Capital Markets изчислява, че интерфейсът на Alexa ще генерира до 2020 милиарда долара приходи за Amazon до 10 г.

Измийте, изпечете, почистете!

Гласовите интерфейси все по-смело навлизат на пазарите на домакински уреди и потребителска електроника. Това вече можеше да се види по време на миналогодишното изложение IFA 2017. Американската компания Neato Robotics представи например робот прахосмукачка, която се свързва с една от няколкото платформи за интелигентен дом, включително системата Amazon Echo. Като говорите с интелигентния високоговорител Echo, можете да инструктирате машината да почиства цялата ви къща в определени часове на деня или нощта.

На изложението бяха представени и други продукти с гласово активиране, вариращи от смарт телевизори, продавани под марката Toshiba от турската компания Vestel, до отопляеми одеяла от немската компания Beurer. Много от тези електронни устройства могат да се активират и дистанционно с помощта на смартфони.

Според представители на Bosch обаче е твърде рано да се каже коя от опциите за домашни помощници ще стане доминираща. На IFA 2017 немска техническа група представи перални машини (7), фурни и кафе машини, които се свързват с Echo. Bosch също така иска неговите устройства да бъдат съвместими с гласовите платформи на Google и Apple в бъдеще.

7. Пералня Bosch, която се свързва с Amazon Echo

Компании като Fujitsu, Sony и Panasonic разработват свои собствени решения за гласов асистент, базирани на AI. Sharp добавя тази технология към фурни и малки роботи, които навлизат на пазара. Nippon Telegraph & Telephone наема производители на хардуер и играчки, за да адаптират система за изкуствен интелект с гласово управление.

Стара концепция. Най-накрая дойде ли нейното време?

Всъщност концепцията за гласов потребителски интерфейс (VUI) съществува от десетилетия. Всеки, който е гледал Star Trek или 2001: Космическа одисея преди години, вероятно е очаквал, че около 2000 г. всички ще управляваме компютрите с нашите гласове. Освен това не само писателите на научна фантастика видяха потенциала на този тип интерфейс. През 1986 г. изследователите на Nielsen попитаха ИТ специалистите коя според тях ще бъде най-голямата промяна в потребителските интерфейси до 2000 г. Най-често посочват развитието на гласови интерфейси.

Има основания да се надяваме на такова решение. Вербалната комуникация в крайна сметка е най-естественият начин хората да обменят съзнателно мисли, така че използването й за взаимодействие човек-машина изглежда като най-доброто решение досега.

Един от първите VUI, наречен кутия за обувки, е създадена в началото на 60-те години от IBM. Това беше предшественикът на днешните системи за разпознаване на глас. Развитието на VUI устройства обаче беше ограничено от ограниченията на изчислителната мощност. Разборът и тълкуването на човешката реч в реално време изисква много усилия и отне повече от петдесет години, за да се стигне до точката, в която всъщност стана възможно.

Устройствата с гласов интерфейс започнаха да се появяват в масово производство в средата на 90-те, но не спечелиха популярност. Първият телефон с гласово управление (набиране) беше Philips Sparkиздаден през 1996 г. Това иновативно и лесно за използване устройство обаче не беше свободно от технологични ограничения.

Други телефони, оборудвани с форми на гласов интерфейс (създадени от компании като RIM, Samsung или Motorola), редовно излизат на пазара, позволявайки на потребителите да набират гласово или да изпращат текстови съобщения. Всички те обаче изискваха запаметяване на конкретни команди и произнасянето им в принудителна, изкуствена форма, съобразена с възможностите на тогавашните устройства. Това генерира голям брой грешки, което от своя страна доведе до недоволство на потребителите.

Сега обаче навлизаме в нова ера на компютрите, в която напредъкът в машинното обучение и изкуствения интелект отключват потенциала на разговора като нов начин за взаимодействие с технологиите (8). Броят на устройствата, които поддържат гласово взаимодействие, се превърна във важен фактор, който оказа голямо влияние върху развитието на VUI. Днес почти 1/3 от населението на света вече притежава смартфони, които могат да се използват за този тип поведение. Изглежда, че повечето потребители най-накрая са готови да адаптират своите гласови интерфейси.

8. Съвременна история на развитието на гласовия интерфейс

Въпреки това, преди да можем свободно да говорим с компютър, както направиха героите от Космическа одисея, трябва да преодолеем редица проблеми. Машините все още не са много добри в справянето с езиковите нюанси. Освен това много хора все още се чувстват неудобно да дават гласови команди на търсачката.

Статистиката показва, че гласовите асистенти се използват предимно у дома или сред близки приятели. Никой от интервюираните не призна, че използва гласово търсене на обществени места. Въпреки това, тази блокада вероятно ще изчезне с разпространението на тази технология.

технически труден въпрос

Проблемът, пред който са изправени системите (ASR), е извличането на полезни данни от речев сигнал и свързването им с определена дума, която има определено значение за човек. Произвежданите звуци са различни всеки път.

Променливост на говорния сигнал е нейното естествено свойство, благодарение на което ние например разпознаваме акцент или интонация. Всеки елемент от системата за разпознаване на реч има специфична задача. Въз основа на обработения сигнал и неговите параметри се създава акустичен модел, който се асоциира с езиковия модел. Системата за разпознаване може да работи на базата на малък или голям брой шаблони, което определя размера на речника, с който работи. Те могат да бъдат малки речници в случай на системи, които разпознават отделни думи или команди, и големи бази данни съдържащи еквивалента на езиковия набор и отчитащи езиковия модел (граматика).

Проблеми, пред които са изправени гласовите интерфейси на първо място разбира правилно речта, в който например често се пропускат цели граматични поредици, възникват езикови и фонетични грешки, грешки, пропуски, дефекти в говора, омоними, неоправдани повторения и пр. Всички тези ACP системи трябва да работят бързо и надеждно. Поне такива са очакванията.

Източник на затруднения са и акустични сигнали, различни от разпознатата реч, които влизат на входа на системата за разпознаване, т.е. всички видове смущения и шум. В най-простия случай имате нужда от тях Филтрирай. Тази задача изглежда рутинна и лесна – в края на краищата се филтрират различни сигнали и всеки инженер по електроника знае какво да прави в такава ситуация. Това обаче трябва да се прави много внимателно и внимателно, ако резултатът от разпознаването на реч трябва да отговори на нашите очаквания.

Използваното в момента филтриране позволява да се отстранят, заедно с говорния сигнал, външният шум, уловен от микрофона, и вътрешните свойства на самия речев сигнал, които затрудняват разпознаването му. Много по-сложен технически проблем обаче възниква, когато смущенията в анализирания речев сигнал са ... друг говорен сигнал, тоест, например, шумни дискусии наоколо. Този въпрос е известен в литературата като т.нар. Това вече налага използването на комплексни методи, т.нар. деконволюция (разплитане) на сигнала.

Проблемите с разпознаването на реч не свършват дотук. Струва си да се разбере, че речта носи много различни видове информация. Човешкият глас подсказва пола, възрастта, различните характери на собственика или здравословното му състояние. Има обширен отдел по биомедицинско инженерство, който се занимава с диагностика на различни заболявания въз основа на характерните акустични явления, открити в речевия сигнал.

Има и приложения, при които основната цел на акустичния анализ на речев сигнал е да идентифицира говорещия или да провери дали той е този, за когото се представя (глас вместо ключ, парола или PUK код). Това може да бъде важно, особено за технологиите за интелигентни сгради.

Първият компонент на системата за разпознаване на реч е микрофон. Въпреки това, сигналът, уловен от микрофона, обикновено остава малко полезен. Изследванията показват, че формата и хода на звуковата вълна варират значително в зависимост от човека, скоростта на речта и отчасти настроението на събеседника – докато в малка степен отразяват самото съдържание на изговорените команди.

Следователно сигналът трябва да бъде правилно обработен. Съвременната акустика, фонетика и компютърни науки заедно осигуряват богат набор от инструменти, които могат да се използват за обработка, анализ, разпознаване и разбиране на речеви сигнали. Динамичният спектър на сигнала, т.нар динамични спектрограми. Те са сравнително лесни за получаване, а речта, представена под формата на динамична спектрограма, е относително лесна за разпознаване с помощта на техники, подобни на тези, използвани при разпознаването на изображения.

Простите елементи на речта (например команди) могат да бъдат разпознати по простото сходство на цели спектрограми. Например речник за мобилен телефон, активиран с глас, съдържа само няколко десетки до няколкостотин думи и фрази, обикновено предварително подредени, така че да могат лесно и ефективно да бъдат идентифицирани. Това е достатъчно за прости контролни задачи, но силно ограничава цялостното приложение. Системите, изградени по схемата, като правило поддържат само конкретни високоговорители, за които гласовете са специално обучени. Така че, ако има някой нов, който иска да използва гласа си, за да контролира системата, той най-вероятно няма да бъде приет.

Резултатът от тази операция се нарича 2-W спектрограма, тоест двуизмерен спектър. В този блок има още една дейност, на която си струва да се обърне внимание - сегментиране. Най-общо казано, говорим за разбиване на непрекъснат говорен сигнал на части, които могат да бъдат разпознати поотделно. Само от тези индивидуални диагнози се прави разпознаване на цялото. Тази процедура е необходима, тъй като не е възможно да се идентифицира дълга и сложна реч наведнъж. Вече са написани цели томове за това кои сегменти да се разграничат в речевия сигнал, така че няма да решаваме сега дали разграничените сегменти трябва да бъдат фонеми (звукови еквиваленти), срички или може би алофони.

Процесът на автоматично разпознаване винаги се отнася до някои характеристики на обекти. Стотици набори от различни параметри са тествани за говорния сигнал разделени на разпознати рамки и имайки избрани функциипри което тези кадри се представят в процеса на разпознаване, можем да изпълним (за всеки кадър поотделно) класификация, т.е. присвояване на идентификатор на рамката, който ще го представя в бъдеще.

Следващият етап сглобяване на рамки в отделни думи - най-често на базата на т.нар. модел на имплицитни марковски модели (HMM-). След това идва монтажът на думите пълни изречения.

Сега можем да се върнем към системата Alexa за момент. Неговият пример показва многоетапен процес на машинно „разбиране“ на човек – по-точно: дадена от него команда или зададен въпрос.

Разбирането на думите, разбирането на значението и разбирането на намеренията на потребителя са напълно различни неща.

Следователно следващата стъпка е работата на NLP модула (), чиято задача е разпознаване на намеренията на потребителя, т.е. значението на командата/въпроса в контекста, в който е изречена. Ако намерението е идентифицирано, тогава присвояване на т. нар. умения и способности, тоест специфичната функция, поддържана от интелигентния асистент. В случай на въпрос за времето се извикват източници на данни за времето, които остава да бъдат обработени в реч (TTS - механизъм). В резултат на това потребителят чува отговора на зададения въпрос.

Глас? Графични изкуства? Или може би и двете?

Повечето известни съвременни системи за взаимодействие се основават на посредник, наречен графичен потребителски интерфейс (графичен интерфейс). За съжаление GUI не е най-очевидният начин за взаимодействие с дигитален продукт. Това изисква потребителите първо да се научат как да използват интерфейса и да запомнят тази информация при всяко следващо взаимодействие. В много ситуации гласът е много по-удобен, защото можете да взаимодействате с VUI просто като говорите с устройството. Интерфейс, който не принуждава потребителите да запомнят и запомнят определени команди или методи на взаимодействие, причинява по-малко проблеми.

Разбира се, разширяването на VUI не означава изоставяне на по-традиционните интерфейси – по-скоро ще бъдат налични хибридни интерфейси, които съчетават няколко начина за взаимодействие.

Гласовият интерфейс не е подходящ за всички задачи в мобилен контекст. С него ще се обадим на приятел, управляващ кола, и дори ще му изпратим SMS, но проверката на последните трансфери може да бъде твърде трудна - поради количеството информация, предадена на системата () и генерирана от системата (системата). Както предлага Рейчъл Хинман в книгата си Mobile Frontier, използването на VUI става най-ефективно при изпълнение на задачи, при които количеството входна и изходна информация е малко.

Смартфонът, свързан към интернет, е удобен, но и неудобен (9). Всеки път, когато потребител иска да купи нещо или да използва нова услуга, той трябва да изтегли друго приложение и да създаде нов акаунт. Тук е създадено поле за използване и развитие на гласови интерфейси. Вместо да принуждават потребителите да инсталират много различни приложения или да създават отделни акаунти за всяка услуга, експертите казват, че VUI ще прехвърли тежестта на тези тромави задачи върху гласов асистент, задвижван от AI. Ще му бъде удобно да извършва натоварващи дейности. Ще му даваме само заповеди.

9. Гласов интерфейс през смарт телефон

Днес повече от телефон и компютър са свързани с интернет. Интелигентни термостати, светлини, чайници и много други устройства, интегрирани в IoT, също са свързани към мрежата (10). По този начин навсякъде около нас има безжични устройства, които изпълват живота ни, но не всички от тях се вписват естествено в графичния потребителски интерфейс. Използването на VUI ще ви помогне лесно да ги интегрирате в нашата среда.

10. Гласов интерфейс с Интернет на нещата

Създаването на гласов потребителски интерфейс скоро ще се превърне в ключово умение на дизайнера. Това е реален проблем – необходимостта от внедряване на гласови системи ще ви насърчи да се съсредоточите повече върху проактивния дизайн, тоест да се опитате да разберете първоначалните намерения на потребителя, предвиждайки техните нужди и очаквания на всеки етап от разговора.

Гласът е ефективен начин за въвеждане на данни - позволява на потребителите бързо да издават команди на системата при свои собствени условия. От друга страна, екранът осигурява ефективен начин за показване на информация: позволява на системите да показват голямо количество информация едновременно, намалявайки тежестта върху паметта на потребителите. Логично е, че комбинирането им в една система звучи обнадеждаващо.

Интелигентните високоговорители като Amazon Echo и Google Home изобщо не предлагат визуален дисплей. Подобрявайки значително точността на гласовото разпознаване на умерени разстояния, те позволяват работа без ръце, което от своя страна повишава тяхната гъвкавост и ефективност – те са желани дори за потребители, които вече имат смартфони с гласово управление. Липсата на екран обаче е огромно ограничение.

Само бипкания могат да се използват за информиране на потребителите за възможни команди, а четенето на изхода на глас става досадно, с изключение на най-основните задачи. Задаването на таймер с гласова команда по време на готвене е страхотно, но не е необходимо да ви кара да питате колко време остава. Получаването на редовна прогноза за времето се превръща в тест на паметта за потребителя, който трябва да слуша и усвоява поредица от факти през цялата седмица, вместо да ги вземе от екрана с един поглед.

Дизайнерите вече са го направили хибридно решение, Echo Show (11), който добави екран към основния интелигентен високоговорител Echo. Това значително разширява функционалността на оборудването. Въпреки това Echo Show все още е много по-малко способен да изпълнява основните функции, които отдавна са налични на смартфони и таблети. Не може (все още) да сърфира в мрежата, да показва рецензии или да показва съдържанието на пазарска количка на Amazon, например.

Визуалният дисплей по своята същност е по-ефективен начин за предоставяне на хората с изобилие от информация, отколкото просто звук. Проектирането с гласов приоритет може значително да подобри гласовото взаимодействие, но в дългосрочен план, произволното неизползване на визуалното меню в името на взаимодействието ще бъде като битка с една ръка, вързана зад гърба. Поради задаващата се сложност на интелигентните гласови и дисплейни интерфейси от край до край, разработчиците трябва сериозно да обмислят хибриден подход към интерфейсите.

Повишаването на ефективността и скоростта на системите за генериране и разпознаване на реч направи възможно използването им в такива приложения и области, като например:

• военни (гласови команди в самолети или хеликоптери, например F16 VISTA),

• автоматична транскрипция на текст (реч в текст),

• интерактивни информационни системи (Prime Speech, гласови портали),

• мобилни устройства (телефони, смартфони, таблети),

• роботика (Cleverbot - ASR системи, комбинирани с изкуствен интелект),

• автомобилостроене (управление без ръце на автомобилни компоненти, като Blue & Me),

• домашни приложения (системи за интелигентен дом).

Внимавайте за безопасността!

Автомобилите, домакинските уреди, системите за отопление/охлаждане и домашна сигурност, както и множество домакински уреди започват да използват гласови интерфейси, често базирани на AI. На този етап се изпращат данните, получени от милиони разговори с машини изчислителни облаци. Ясно е, че търговците се интересуват от тях. И не само те.

Неотдавнашен доклад от експерти по сигурността на Symantec препоръчва потребителите на гласови команди да не контролират защитни функции като ключалки на вратите, да не говорим за системите за домашна сигурност. Същото важи и за съхраняването на пароли или поверителна информация. Сигурността на изкуствения интелект и интелигентните продукти все още не е достатъчно проучена.

Когато устройствата в дома слушат всяка дума, рискът от хакване на системата и злоупотреба става огромен проблем. Ако нападател получи достъп до локалната мрежа или свързаните с нея имейл адреси, настройките на смарт устройството могат да бъдат променени или нулирани до фабричните настройки, което ще доведе до загуба на ценна информация и изтриване на потребителска история.

С други думи, специалистите по сигурността се опасяват, че гласово управляваните AI и VUI все още не са достатъчно умни, за да ни предпазят от потенциални заплахи и да си държат устата затворена, когато непознат поиска нещо.