Системы голосовой техники быстро развиваются. Практически во всех сферах бизнеса они создают новые возможности для обслуживания клиентов, повышения точности, производительности и эффективности производства, сокращения временных и финансовых затрат. Они вторгаются в жизнь миллионов частных пользователей. Поэтому можно ожидать дальнейшего увеличения числа распознаваемых языков и расширения количества создаваемых на этой основе сервисов.
Диаграмма №4. Динамика мирового рынка систем биометрической идентификации (2009-2017 гг.)
Диаграмма №5. Структура мирового рынка систем биометрической идентификации
Диаграмма №6. Причины, по которым организации не планируют применять биометрию
Диаграмма №7. В каких биометрических технологиях заинтересованы предприятия
Диаграмма №8. Динамика отдельных сегментов мирового рынка систем биометрической идентификации
Предложения современного рынка голосовой биометрии.
Три основных барьера стоят на пути развития систем распознавание речи:
. большие объемы словарей
. шаблоны непрерывной речи
. различные акценты и произношения
Это основные препятствия для автоматизированных систем распознавания голоса, но есть еще и другие проблемы - понимание семантики речи. Объемы словарей определяют степень сложности, требования к вычислительной мощности и надежность систем распознавания голоса. Можно приспособиться к непрерывному потоку речи, но есть еще и строгие семантические правила, которым необходимо следовать, чтобы система смогла понять семантику комбинаций слов в предложениях. Необходимо продолжать основательные исследования, только это позволит «справиться» с такими характеристиками речи, как морфология, акценты, высота звука, скорость, громкость, сливающиеся слова, контекст, артикуляция, лингвистическая информация, синонимы и т. д. Ожидается, что основным направлением развития станет моделирование языков для использования в системах распознавания речи.
Не решена окончательно и проблема отделения речевого сигнала от шумового фона. В настоящее время пользователи систем распознавания голоса вынуждены либо работать в условиях минимального шумового фона, либо носить шлем с микрофоном у самого рта. Кроме того, пользователям приходится «информировать» компьютер о том, что они к нему обращаются. Для этого обычно надо нажать кнопку или сделать что-то в этом роде. Конечно, это не самый лучший вариант пользовательского интерфейса. Решение этих проблем началось, и уже получены много-обещающие результаты. Одна из долгожданных разработок в области распознавания голоса - это человеко-машинные диалоговые системы; такими системами занимаются во многих университетских исследовательских лабораториях. Системы «умеют» работать с непрерывным речевым потоком и с неизвестными дикторами, понимать значения фрагментов речи (в узких областях) и предпринимать ответные действия. Эти системы работают в реальном времени и способны выполнять пять функций по телефону:
. узнавание речи - преобразование речи в текст, состоящий из отдельных слов
. понимание - грамматический разбор предложений и распознавание смыслового значения
. восстановление информации - получение данных из оперативных источников на основании полученного смыслового значения
. генерация лингвистической информации - построение предложений, представляющих полученные данные, на выбранном пользователем языке
Другие статьи по теме
Изобретение телевидения
Греческий
философ Анаксагор однажды услышал у одного рапсода - странствующего греческого
поэта - такую поэтическую фразу: «Его телевидение простирается за границы
Эйкумены». Его - то ес ...
Интегрированные информационные технологии
Использование
принципа интеграции в компьютерных системах относится к различным аспектам
организации технологий: интеграция информации в базах и банках данных;
интеграция программ в еди ...
Источник питания с микроконтроллером
Микроконтроллеры используются во всех сферах жизнедеятельности человека,
устройствах, которые окружают его. Простота подключения и большие
функциональные возможности делает его при ...