В самое ближайшее время Google планирует выпустить бесплатное приложение для Apple iPhone, позволяющее распознавать голосовые запросы.
Аудио запросы будут конвертироваться в цифровые файлы и затем поступать на сервера Google, где будет проделываться обратная процедура – конвертация цифровой информации в слова с последующей отправкой их в поисковую машину Google.
Весь цикл преобразований не займет много времени – результат поиска отобразится уже через несколько секунд, при этом для наиболее релевантного поиска будет задействована и локальная информация, которую позволяют получить соответствующие функции iPhone.
Возможность корректно распознавать речь любого человека долгое время была одной из самых заветных целей исследователей, работающих в области создания искусственного интеллекта. Ученые искали способы сделать взаимодействие человека и машины максимально естественным. Системы, позволяющие в той или иной мере реализовать эту возможность, сразу же находили применение в коммерческих продуктах.
В частности, голосовые сервисы для мобильных телефонов уже предлагают Yahoo и Microsoft. Сервис Microsoft Tellme предоставляет информацию по отдельным категориям, таким, например, как карты и направления движения. Голосовой сервис oneSearch от Yahoo более гибкий, но не такой точный, как решение, предлагаемое Google. Конечно, система Google также далека от совершенства и иногда отфутболивает неразборчивые речевые запросы, но инженеры Google на основе собственной статистики пришли к заключению, что она все же будет полезной для тех владельцев iPhone, которым лень набирать поисковые запросы на клавиатуре.
Сервис можно будет использовать для получения информации о ресторанах, направлении движения, просмотра списка контактов в адресной книге iPhone и т.п.
Рэй Редди (Raj Reddy), ученый из университета Карнеги Меллон, который стоял у истоков работ по распознаванию голоса, считает, что одним из значительных преимуществ Google в этой области является возможность сохранять и анализировать большие объемы данных, и все, что Google следует предпринять сейчас, так это значительно увеличить точность их обработки.
“Важно понять, что машина никогда не будет распознавать произносимую речь на 100%, - говорит Редди, - поэтому основной вопрос состоит в том, насколько близко это понимание будет соответствовать истине."
Google не единственная компания, работающая в сфере распознавания человеческой речи. Так называемая технология голосового ответа (voice response technology) сегодня широко используется в телефонной рекламе, а также в других потребительских сервисах и продуктах. Но она обычно мало понимает свободные, отличные от стандартных, фразы и в ее арсенале, как правило, присутствует очень ограниченный список ответов.
Несколько недель назад Adobe также добавила технологию распознавания голоса, разработанную британской фирмой Autonomy в пакет программ Creative Suite, позволяющий с высокой степенью точности генерировать транскрипцию для видео- и аудиозаписей.
Прогнозируют, что в своем начинании Google столкнется сразу с двумя проблемами: голосового ввода поискового запроса и получения ответной информации.
Но создание новых поисковых возможностей для iPhone не является дебютом Google в этой области. В марте компания запустила экспериментальный сервис GOOG-411, который уже воплотился в реальный продукт. Сервис снабжает пользователей информацией по рабочим телефонам и адресам предприятий. Накопленный опыт найдет новое применение и в развитии голосового поискового сервиса для iPhone.
Для работы над новым сервисом Google привлекла лучших исследователей, работающих в области распознавания речи, сегодня над решением различных аспектов задачи трудятся ученые и инженеры из Нью-Йорка, Лондона и Mountain View (Калифорния), где находится штаб-квартира исследований. Интересную деталь прорабатывает один из лондонских исследователей: он предложил использовать в качестве переключателя режимов акселерометр iPhone: то есть, в зависимости от того, в каком положении удерживать аппарат, он будет работать либо на отправку, либо на прием информации.
Исследователи Google недавно опубликовали техническую статью на тему построения больших моделей машинного перевода языка, в которой отмечено, что система была протестирована на двух триллионах (!) слов.