Pick-by-Voice
технология третьего тысячелетия (Часть 1)

Голосовую технологию в процессах комплектования продукции (Pick-by-Voice) начали внедрять сравнительно недавно, не более десяти лет назад, но за это время она уже прекрасно зарекомендовала себя в отраслях, связанных с транспортировкой и хранением таких товаров, как швейные изделия, напитки, охлажденные и замороженные продукты, расфасованные товары, товары для общественного питания и бакалейные, медико-фармацевтические и товары, поставляемые сторонним фирмам. Применение такой технологии на крупных складах предоставляет огромные преимущества, а появление надежной аппаратуры в сочетании с совершенным программным обеспечением являются существенными составляющими, определившими успешность новой технологии.

Голосовые системы управления складами значительно изменили на всех уровнях характер работы применивших их компаний. По сообщениям зарубежной печати, благодаря использованию этой технологии ряду фирм удалось улучшить важнейшие показатели своей деятельности, такие как производительность (до 35%) и точность выполнения заказов (доведена до 99,99%), а также уменьшить количество больничных листов и время обучения персонала (на 50%), текучесть кадров. Несмотря на новизну технологии, в настоящее время ее уже применяет примерно 500 компаний, а это означает, что более 100 тысяч операторов на складах каждый день пользуются голосовой аппаратурой. В нашей стране она пока не применяется, но обязательно будет, скорее всего, уже в самом ближайшем будущем.

Что такое «голосовая технология»?

Это объединенные в один комплекс для выполнения определенных работ люди и системы оборудования. С их помощью работники складов и оптовых баз могут поддерживать непосредственную голосовую связь с системами управления складом (WMS), передавать информацию без оформления ее в электронном или бумажном виде и согласованно выполнять целый ряд важнейших складских операций.

Как же работают голосовые системы? Каким образом компьютер воспринимает человеческую речь и отвечает человеческим голосом?

Аппаратура, используемая в этой технологии, представляет собой небольшой носимый на теле беспроводной компьютер с программным обеспечением, способный подавать оператору речевые команды и распознавать его ответы. Оператор, пользующийся голосовой системой, носит на теле два прибора: головной телефон и легкий компьютер с автономным источником питания на специальном поясе. Аппаратура оператора связана с помощью радиосвязи с главным компьютером, как правило, системы управления складом (WMS) или системы планирования ресурсов предприятия (ERP). Система управления складом посылает указания в голосовой компьютер в форме радиосигналов вместо печатных заказ-нарядов. Например, данные о количестве и местонахождении товаров, которые следует отобрать, преобразуются из цифровой формы в голосовое сообщение, которое хорошо понимает оператор. Такая технология позволяет успешно обойтись без печатных заказ-нарядов, радио- и инфракрасных сканирующих систем.

В течение рабочего дня WMS создает файлы с заданиями на работу. Они пересылаются операторам в виде конкретных указаний (например, разложить по местам, подобрать или пополнить запас товаров) в компьютер оператора и преобразуются в ряд голосовых команд. Оператор слышит команды на выполнение каждой операции и по ее завершении докладывает об этом по головному телефону. Речь оператора распознается голосовым компьютером, который передает оператору следующую команду. Этот процесс продолжается: команды доводятся до сведения оператора, а он подтверждает их выполнение.

Ниже мы опишем аппаратуру, применяемую в голосовых системах, процесс распознавания речи и некоторые особенности конструкции, которые следует учитывать при оценке систем. Чтобы максимально воспользоваться преимуществами технологии, следует оптимальным образом выбрать одну из многих существующих голосовых систем. Компании, планирующей использовать голосовую технологию, необходимо оценить производительность той или иной системы, сравнить с предложениями, имеющимися на рынке, определить эффективность выбранной системы в составе всей системы снабжения. При подготовке статьи были использованы сведения, полученные от руководителей нескольких компаний, недавно начавших использовать голосовые системы.

От каких же аспектов зависит выбор голосовой системы?

Факторы выбора: общая оценка

Сразу несколько пользователей голосовых систем были единодушны в своем мнении: системы должны работать на складе как живой человек, иначе не будут достаточно эффективны. Кроме того, исходя из собственного опыта, пользователи высказали следующие соображения:

  • необходимо, чтобы все компоненты голосовой системы были предназначены и разработаны для совместной работы в составе системы как единый продукт;
  • технологию TTS (Text-to-Speech, «Текст в речь») рекомендуется использовать для преобразования данных, поступающих от системы WMS, в голосовые команды, которые будут понятны операторам и другим работникам склада;
  • в голосовом компьютере рекомендуется использовать технологию распознавания голоса конкретного лица;
  • предпочтительно использовать голосовые системы со словарем малого объема. Лексикона приблизительно из 100 полных слов достаточно для того, чтобы система могла работать в складском комплексе;
  • регистрация образца голоса конкретного оператора в системе со словарем малого объема обычно занимает 20 минут и выполняется всего один раз для каждого оператора;
  • голосовая система для крупных складов должна быть рассчитана на использование в течение полного рабочего дня, а не на кратковременную или частичную эксплуатацию;
  • при выборе голосовых систем следует учитывать надежность отдельных компонентов и всего аппаратного обеспечения;
  • одно из самых важных мероприятий, которое следует провести при выборе системы, – это широкое квалифицированное предварительное исследование различий рассматриваемых голосовых систем;
  • компании предпочитают выбирать голосовые системы, хорошо зарекомендовавшие себя в данной отрасли промышленности;
  • важно оценить производственные расходы конкретного складского предприятия перед введением голосовой технологии – это позволит подсчитать окупаемость капиталовложений.

Воспроизведение голосовых команд

Как же осуществляется «разговор» компьютера с оператором? Обычно применяется два метода преобразования текстовых команд в речь, которую слышит оператор: «Текст в речь» (Text-to-Speech, TTS) и «Цифровая запись речи» (Digitized Speech).

«Текст в речь» – наиболее широко используемая современная технология воспроизведения речевых команд в голосовых системах. Как следует из ее названия, программное обеспечение системы TTS преобразует текстовые команды, поступающие от WMS, в синтезированные (генерируемые компьютером) голосовые команды, которые содержат указания оператору, в том числе главные: где именно следует комплектовать следующий заказ и количество подбираемых продуктов. Генерируемая компьютером голосовая команда звучит как всем знакомый голос из телефона, сообщающий о неправильно набранном номере, или голос автомобильной навигационной системы, так что операторы привыкают к голосу за считанные минуты. Большинство операторов, ежедневно работающих с этой системой, предпочитают получать информацию очень быстро, поэтому голосовая система должна иметь простой и понятный регулятор темпа речи. Когда оператор становится более опытным или если того требует характер выполняемой работы, он может самостоятельно увеличивать темп поступления команд. Благодаря такой гибкости системы увеличивается производительность труда, причем точность выполнения заданий при этом не страдает.

Устройства преобразования текста в речь способны работать на многих языках, благодаря чему каждый член многонационального коллектива может получать информацию на понятном ему языке, регулируя к тому же и темп речи. Так, во многих существующих голосовых системах устройства преобразования текста в речь «знают» до 14 языков!

«Цифровая запись речи». Эта технология известна как система «Записи и воспроизведения» (Record and Playback), поскольку воспроизводит предварительно записанную речь реального человека. Запись хранится в виде цифровых файлов, фразы воспроизводятся по мере необходимости. В этом случае голос звучит гораздо «человечней», но возможности системы серьезно ограничиваются тем, что компьютер способен воспроизводить исключительно те фразы, что были заранее записаны. Например, если оператор следует к месту расположения товара и просит подробней описать груз, компьютер сможет выдать информацию лишь в том случае, если подробное описание товара было предварительно записано в голосовой системе. Учитывая динамичный характер работы абсолютного большинства складских комплексов с их постоянной сменой номенклатуры товаров, «лексикон» систем с «цифровой записью речи» весьма трудно поддерживать в адекватном состоянии. А если на складе трудится многонациональный коллектив, это вносит еще одну дополнительную проблему – новые команды придется записывать на многих языках! В результате пользование системой может вызвать недовольство работников, так как не обеспечит их полной информацией для выполнения профессиональных обязанностей. Кроме того, чтобы дать возможность операторам увеличивать темп аудиокоманд (а значит, и производительность), в некоторых системах «Записи и воспроизведения» требуется создавать и сохранять множество версий цифровых аудиофайлов разной «скорости». Таким образом, подобный метод увеличивает стоимость создания, эксплуатации и управления устройством воспроизведения команд голосовой системы.

Распознавание речи

Кроме информирования оператора голосовая система должна быть способна распознавать его ответы. Чтобы завершить информационный цикл, оператор должен ответить голосовому компьютеру, что он получил и понял команду. На коммерческом предприятии, где производительность и точность жизненно необходимы, очень важно, чтобы голосовая система распознавала произнесенное слово или фразу с первого раза и без ошибок. Чтобы обеспечить это, лучше всего выбирать систему, способную распознавать всевозможные человеческие голоса – мужские и женские, тихие и громкие, с различными акцентами, а кроме того, надежно проверенную в условиях реальной эксплуатации. В настоящее время на рынке предлагаются системы распознавания речи двух типов, преобразующие человеческую речь в информацию, понятную компьютеру: системы распознавания конкретного говорящего и системы, распознающие любого говорящего.

Системы распознавания конкретного говорящего обычно вдвое точнее систем, распознающих любого говорящего. Поэтому первые более предпочтительны для применения в промышленных целях. Голосовые системы, распознающие конкретного говорящего, следует обучать голосу каждого оператора. Операторы надевают головные телефоны и по указанию голосовой системы произносят ряд цифр, слов и команд. Подобным образом голосовая система обучается понимать голос конкретного человека, характеристики которого регистрируются и запоминаются. Вся процедура регистрации каждого образца голоса со стандартным набором слов выполняется только один раз и занимает приблизительно 20 минут.

Перед началом рабочей смены оператор подключает головной телефон к голосовому компьютеру на поясе и идентифицируется в компьютере. Если образец голоса оператора еще не записан в «памяти» поясного компьютера, он загружается быстрее чем за минуту из главного компьютера. Характерным примером является система Voice-Directed Distribution™ компании Vocollect (г. Питтсбург): благодаря индивидуально записанным образцам голоса она позволяет преодолевать языковые барьеры, характерные для многонациональных рабочих коллективов складов.

Системы распознавания любого говорящего, например такие, которые используются в управляемых голосом справочных системах, способны «понимать» любой голос и не нуждаются в «обучении» речи каждого оператора. Однако по опыту общения с телефонной справочной службой известно, что такая система гораздо чаще «ошибается»: если вы спрашиваете телефонный номер «Иванцова», но выговариваете имя нечетко, тогда система может ответить: «Вы ищете номер Иванова?» Или вы спрашиваете: «Ворожков», а система «понимает» это слово как «Творожков».

Технология распознавания любого говорящего в настоящее время широко применяется, но не рекомендуется для эксплуатации в динамично работающем складском комплексе. Основным недостатком ее является то, что на первый взгляд кажется преимуществом: она распознает речь любого оператора на основании некого общего виртуального образца, а потому не способна различить в речи операторов тонких оттенков различных акцентов и других особенностей речи. Такие системы будут просить оператора повторять слова, что снижает производительность и мешает работе, особенно когда это происходит постоянно в течение 8…10 часов в день.

Системы со словарями большого и малого объема. Оценивая трудоемкость обучения голосовой системы распознавать речь каждого оператора, следует ответить на вопрос: скольким словам нужно обучить голосовую систему, чтобы она могла нормально работать? Существует два подхода к решению этой важной задачи: использование в системе словаря большого или малого объема.

Как видно из названия, системы со словарем малого объема обучаются распознавать очень ограниченное число слов, поскольку в складских работах одни и те же операции чаще всего повторяются (подбор заказа, пополнение складских запасов, расстановка товаров по местам). Лексикона приблизительно из 100 слов обычно бывает достаточно. В этой сотне основная группа, примерно 20 слов, используется наиболее часто. Из них и составляются все команды на выполнение работ, которых достаточно для ежедневной деятельности большинства складских комплексов. К тому же «привилегированные» пользователи, наделенные правом изменять настройки системы, могут вносить собственные коррективы: добавлять в словарь новые слова, необходимые для работы, и удалять ненужные.

Системы со словарем большого объема обычно «знают» более тысячи слов. Такой системе сложнее отличить одно произнесенное слово от другого, и поэтому ее точность меньше. Например, когда оператор произносит «вода», система может «услышать» слово «да» или «туда». Когда лексикон системы состоит всего лишь из 100 слов, ей проще распознать знакомое слово и не ошибиться. Такая система работает точнее и гораздо быстрее обрабатывает информацию.

Скорость общения с оператором имеет очень большое значение для работы, особенно если из-за запаздывания снижается производительность. Во время складских работ потеря даже нескольких драгоценных секунд на каждой из тысяч команд, получаемых оператором в течение рабочего дня, оборачивается немалыми убытками. Кроме того, система со словарем малого объема нуждается в небольшой памяти.

Из вышесказанного мы видим, что голосовая система со словарем малого объема способна обеспечивать всю деятельность склада, быстрый поиск информации и высокую точность. В свою очередь использование систем со словарем большого объема имеет незначительные преимущества, но с большой долей риска они могут работать неточно, поэтому их не рекомендуется применять на современных складах.

Каким же должен быть диалог человека и системы?

Еще один потенциальный недостаток, из-за которого может понизиться производительность, состоит в том, что работнику порой приходится выслушивать и произносить слишком много слов. Уменьшение числа слов в диалоге с системой ускоряет технологический процесс. Если для работы системы требуется, чтобы оператор произносил дополнительные слова до и после обмена информацией, производительность труда может значительно пострадать. В частности, если голосовая система просит оператора подтвердить завершение подбора заказа из 10 наименований, для этого должно быть достаточно произнести одно слово (например, «готов») в компьютер. Нежелательно, чтобы в начале и конце команд произносились дополнительные слова, такие как «Проверка. Десять. Подтверждаю». В некоторых системах, если пользователь не сказал «Проверка» или «Подтверждаю», вся команда не воспринимается. Кроме того, иногда требуется, чтобы оператор, произнося команду, делал паузу перед каждым словом. Систему с таким программным обеспечением также не рекомендуется выбирать.

В некоторых системах нужно, чтобы оператор не делал пауз между словами и произносил всю фразу очень быстро и без запинок, что тоже неприемлемо. Пользователям надо, чтобы информацию в голосовой компьютер можно было передавать четким и естественным голосом без пауз. Выбирая голосовую систему, следует помнить об этом.

Голосовые команды – инструмент для работы

Как видим, компании обычно внедряют у себя голосовые технологии, чтобы повысить общую производительность и увеличить прибыль предприятия. Эти цели достижимы только в том случае, если все компоненты голосовой системы работают согласованно. Один неудовлетворительно работающий компонент может свести к нулю эффективность всей голосовой системы и даже всей системы снабжения.

Комплексная голосовая система

При выборе голосовой системы необходимо убедиться, что все ее компоненты – головной телефон, программное обеспечение и соответствующая голосовая технология – способны правильно работать как единое целое. Покупая дорогую стереосистему, нельзя приобретать к ней дешевые низкокачественные колонки. Точно так же и все компоненты голосовой системы должны иметь превосходное качество одинакового уровня. Для непромышленного учреждения, например для информационно-справочной телефонной службы, качество обычных предлагаемых на рынке головных телефонов может быть удовлетворительным. Однако на складе они, возможно, будут работать очень плохо из-за механических воздействий и радиопомех, поэтому должны быть разработаны специально для условий складских комплексов. Компании, успешно эксплуатирующие голосовые системы, работают только с теми поставщиками, которые полностью контролируют качество всех компонентов системы. Такие поставщики предоставляют систему как единый продукт, все компоненты которого разработаны для эксплуатации в комплексе и тщательно проверены.

Голосовая система должна передавать команды в наиболее рациональной и эффективной форме. В крупном складском комплексе большинство операторов, имеющих с ней дело, скорее всего, будут пользоваться ею в течение всего рабочего дня. Они полагаются на эту технологию и рассчитывают, что система поможет им в выполнении разнообразных складских работ. Кроме того, на складе, возможно, будет некоторое число пользователей, работающих с голосовой системой от случая к случаю. Учитывая наличие пользователей обоих типов, складская компания должна подобрать голосовую систему, лучше всего обеспечивающую выполнение всех задач, как при временном использовании, так и при непрерывном. Для работника, сортирующего грузы на площадке в течение 7 часов каждый день, а затем принимающего вновь поступающие грузы в течение часа, лучше всего подходит голосовая система, рассчитанная на «частичное использование». В ее состав входит компактный переносной прибор, позволяющий вводить данные и с помощью клавиатуры, и голосом. Однако надо обязательно помнить и тщательно проверить, предназначена выбранная голосовая аппаратура для промышленного или коммерческого использования. Невнимательные покупатели могут быть неприятно удивлены, обнаружив, что переносной прибор изначально не был предназначен для работы с голосовой системой и эта функция является для него чужеродным (и неудовлетворительно работающим) дополнением.

Клиент-сервер: организация связи с главным компьютером

Некоторые поставщики предлагают голосовую аппаратуру в форме компактных переносных узлов, но в большинстве случаев ее носят на теле. Небольшой компьютер с элементами питания оператор обычно помещает на поясе: эту половину системы можно назвать «клиент». При помощи радиоволн «клиент» связан с главным компьютером, так называемым сервером – второй половиной системы. Сервер посылает в поясной компьютер команды от системы WMS: какие товары следует подобрать, где и в каком количестве. Эта информация затем доводится сервером до оператора либо путем ее озвучивания «в реальном времени» (то есть по мере необходимости), либо в составе регулярно поступающей порции информации.

«Толстый» или «тонкий клиент»?

Этот заголовок – не часть рекламного слогана модной диеты, а характеристика места, где находится компьютер голосовой системы. Рекомендуется выбирать поставщиков голосовых систем, которые предлагают операторскую («клиентскую») аппаратуру, носимую на поясе или в руках, а не расположенную в сервере. Такие системы можно назвать «толстый клиент». Если распознавание голосовых команд производится в сервере, а «клиент» – просто передатчик данных, то такая система называется «тонкий клиент».

Преимущества «толстого клиента»

Архитектура «толстого клиента» имеет несколько преимуществ. Самое главное: благодаря достижениям последних лет в технологии даже очень компактные компьютеры обладают достаточными возможностями по распознаванию речи. Если индивидуальные компьютеры выполняют эту важную функцию, отпадает необходимость иметь дорогую и сложную систему с множеством серверов. Если же обработка голосовых команд производится в сервере, информация передается от «клиента» (оператора) на сервер и обратно с задержкой. Увеличение времени реагирования – серьезная помеха работе и причина снижения производительности оператора. Наконец, системы типа «толстый клиент» обладают значительным запасом надежности. Если возникают проблемы с конкретным поясным компьютером, это не влияет на качество работы аппаратуры, обслуживающей других операторов. Однако когда преобразование голосовых команд производится в сервере и в нем возникает неисправность, все операторы теряют возможность работать.

По материалам зарубежной печати подготовил С. Протасов