+7 495 980 0770

Речевые технологии в ритейле

Говорящие роботы в торговых залах заменяют реальных продавцов, «умные» колонки позволяют делать заказы в магазинах без помощи компьютера, а голосовая биометрия – подтверждать оплату одной фразой. Это не фантастика, а речевые технологии, которые все глубже проникают в розничную торговлю.

Первые разработки в сфере речевых технологий относятся еще к 18 веку. В 1779 году немецкий инженер Христиан Кратценштайн представил свое устройство для синтеза речи. Механический аппарат мог воспроизводить всего несколько гласных звуков, однако начало было положено. Фотографии и схемы устройства до сегодняшнего дня не сохранились.

В 1937 году американский ученый Гомер Дадли, сотрудник лаборатории Bell, создал первый электронный речевой синтезатор под названием Voder. Аппарат мог произносить лишь одно имя, но с разными интонациями. Интонация задавалась ассистентом при помощи клавиатуры.

В 1939 году советский физик Лев Мясников занялся созданием прибора для распознавания речи в рамках диссертации «Техническая фонетика» для Ленинградского университета. В 1942 году, во время блокады Ленинграда, он защитил свой проект и представил первую в мире систему, способную распознавать отдельные звуки человеческой речи.

В 1952 году голосовой распознаватель чисел от 1 до 9 представила лаборатория Bell, а спустя 10 лет IBM презентовала Shoebox. Помимо 16 заложенных слов и 6 цифр, система могла также различать 10 математических команд.

В 90-х появилось много новых систем распознавания речи, и каждая из них становилась все совершенней. Одной из первых программ, ориентированной на массовый рынок, стала Dragon Dictate. Она позволяла пользователю записывать текст, проговаривая его в микрофон. Система с легкость различала до 100 слов в минуту, а цена в 600 долларов позволила разработчикам вывести продукт на широкий рынок.

В 2001 году Microsoft решила интегрировать технологию распознавания речи в свой обновленный офисный пакет Office XP. Через год корпорация Google решила развивать голосовой поиск. Voice Search был не особо успешен, но стал отправной точкой для будущего интерактивного помощника Google Assistant.

Речевые технологии сегодня

С тех пор речевые технологии не только шагнули далеко вперед, но и прочно вошли в повседневную жизнь. С их помощью можно делать запросы в поисковых системах без использования клавиатуры, управлять домашними приборами, делать покупки в магазинах через голосовых помощников и оплачивать заказы, не вводя пароль.

Основными речевыми технологиями, использующимися в ритейле в настоящее время, являются:

Запись звука и речи
Устройства, записывающие речевую информацию и звук – с телефонных линий, микрофонов или линейных выходов аппаратуры – могут выступать в качестве автономных регистраторов или цифровых диктофонов. Высокое качество звукозаписи, особенно у цифровых диктофонов, делает их пригодными для распознавания речи и голоса.

Распознавание речи
Используются как сравнительно простые технологии – например, распознавание отдельных команд для голосовой навигации по сайту, так и более сложные. К последним относится поиск ключевых слов и распознавание слитной речи.

В первом случае программа находит фрагменты, которые содержат заданные слова или словосочетания. Подобная технология применяется в поисковых системах. Распознавание слитной речи на большом словаре – наиболее сложная технология. Она трансформирует речь в текст, не ограничиваясь заданной грамматикой или лексикой.

Синтез речи
Технология позволяет произносить текст голосом, приближенным к естественному. Чтобы синтезированная речь звучала натурально, специалисты решают задачи по воссозданию тембра голоса, плавности звучания, интонации, правильной расстановки пауз и ударений. Синтез речи применяется в различных областях, например, при производстве голосовых помощников и робототехники.

Анализ и обработка речи
Сюда относится поиск ключевых слов в аудиозаписях, автоматический анализ и оценка телефонных переговоров, а также интеллектуальный анализ речевой информации, автоматически определяющий тематику разговора.

В основе лежат технологии распознавания слитной речи на большом словаре (LVCSR) и извлечения информации с помощью кластерного анализа данных (Data Mining Clustering). Речь преобразуется в текстовый файл, который можно использовать для автоматического лексико-семантического анализа.

Голосовая биометрия
Данная технология позволяет подтверждать личность человека удаленно, например, по телефону, используя данные его голоса. Голос также уникален, как отпечаток пальцев или сетчатка глаза, поэтому надежность метода достигает 98%. Для этого анализируется более 70 параметров голоса.

Перечисленные технологии уже активно применяют зарубежные и российские ритейлеры. Одна из задач, которую решают крупные сетевые магазины с их помощью, – улучшение работы контакт-центров. Там активно внедряются системы голосового самообслуживания (IVR), речевой аналитики, систем управления качеством работы операторов и оценки удовлетворенности клиентов.

Речевые технологии помогают улучшить эффективность работы распределительных центров. С их помощью комплектовщики заказов могут в режиме реального времени поддерживать голосовую связь с системами управления складом, а также передавать информацию, не оформляя ее в бумажном или электронном виде.

[...]

Розничная торговля в силу своих особенностей уже много лет является технологическим «первопроходцем» среди отраслей российской экономики, чему способствует очень высокая конкуренция, – считает Евгений Овчаров, заместитель директора департамента телекоммуникационных и инфраструктурных решений компании Oberon. При уменьшении покупательской способности клиентов спрос смещается из офлайн-канала в сторону продаж через менее затратные цифровые: веб-сайты, приложения, социальные сети и мессенджеры. Два ключевых критерия эффективности продажи в них – это удобство и безопасность покупки. Поэтому ритейлер обязан оставаться на связи по любому удобному пользователю каналу, текстовому или голосовому.

[...]

Перспективы

Как будут развиваться речевые технологии в ближайшем будущем? Мы собрали мнения экспертов.

[...]

Евгений Овчаров, Oberon, уверен, что в ближайшие годы у ритейлеров вырастет интерес к глубокой речевой аналитике:«За счет сквозного анализа речи она позволяет на реальных оцифрованных данных проверять новые бизнес-гипотезы, оценивать RIO, – уточняет эксперт. С этой технологией под контролем находятся уже не 1-3% звонков клиентов в контакт-центр, а 100%, фиксируется не только текст, но и изменение тональности беседы. Решение информирует о паузах и негативе, определяет ключевые для бизнеса слова и «триггеры» потенциальных проблем до поступления жалобы. Уменьшаются и длительность звонков, и число повторных вызовов. Технология дает «счетное подтверждение» для вводимых изменений и демонстрирует их результаты».

По его мнению, глубокая речевая аналитика и цифровизация речевых каналов сокращают издержки ритейлеров за счет снижения стоимости владения колл-центром, помогают при лавинообразном росте количества обращений (например, во время распродаж) и повышают удовлетворенность потребителей.

[...]

Подробнее в материале