Синтезаторы речи

Статьи

Синтезаторы речи — это программы, на вход которых подаётся текст, а на выходе синтезируется человеческая речь. Эти программы имеют широкое применение — в телефонии, электронных ассистентах-помощниках, для телефонного доступа к веб-приложениям, в образовательных целях, в кол-центрах и т.п. Основные голосовые движки для воспроизведения русской речи — Realspeak, Digalo и Sakrament от компаний Nuance, Acapela и Sakrament соответственно.

Синтезаторы речи, работающие под Windows-системами:

Digalo (Acapela ELAN TTS)
Синтезаторы речи Acapela доступны на 23 языках, в том числе, и на русском и могут разговаривать более чем 50 голосами. Есть возможность использования в нескольких программах одновременно (многоканальность). Качественное русское произношение, большой словарь русских слов и ударений, всевозможные настройки и параметры воспроизведения. Наиболее качественный голосовой пакет — «Николай».

Nuance RealSpeak (ранее ScanSoft)
Поддерживает более 20 языков включая китайский, норвежский и корейский и 30 голосов. Голос, звучащий на русском языке — «Катерина». По многим параметрам это даже гораздо более удачное решение для русского языка, чем Digalo. Полностью поддерживает SAPI5. Программа распространяется только на коммерческой основе.

Sakrament TTS Engine
Программа умеет воспроизводить тексты на русском языке. На русском есть и версия сайта компании. Линейка продуктов Sakrament включает в себя приложение для коммуникаторов и КПК, программа для озвучивания электронных учебников и документов. В пакете для русского языка можно выбирать из трех голосов («Ольга», «Ирина», «Вячеслав»). Поддерживает входные форматы RTF и TXT, автоматически распознает кодировку текста, полностью поддерживает SAPI Speech Tags и дополнительные тэги семантической разметки текста для улучшения звучания синтезированной речи. Посредством тэгов можно задавать ударение, тип фрагмента текста (дата, время, адрес, URL, e-mail, телефон, аббревиатура и т.д.), параметры воспроизведения (громкость, скорость, интонация), а также другие параметры.

CoolReader
Программа для комфортного чтения книг с экрана, чтения вслух, форматирования и конвертирования текстов. Функция чтения вслух разработана с использованием движков MS SAPI 4.0 × 5.1. Работает в том числе и с текстами на русском языке. Распознает форматы HTML, RTF, DOC (MS Word), TXT, FB2 (FictionBook). Автоматически распознает русские кодировки dos, win, koi-8, а также latin, utf-8 и unicode. Можно сохранить аудиокнигу в формате MP3 для прослушивания на MP3 плеере. Отдельно подключаются словари произношений с настройками для каждого голосового движка. Поддерживаемые операционные системы: Win9x/ME/NT4.0/Win2K/XP.

ToM Reader
Приложение представляет собой просмотрщик текстов и речевой синтезатор одновременно. Работает в том числе и на русском языке. Позволяет создавать из текстов MP3-файлы, есть возможность подключения словарей произношения, умеет работать с zip архивами. Поддерживаемые форматы файлов: HTML, RTF, MS Word, TXT, кодировки: ANSI, KOI, OEM. Максимальный размер открываемого файла — 12 Мб.

Speak Aloud — программа для чтения и сохранения в файл с конвертированием текста форматов TXT, PDF, HTML, RTF в аудио MP3, WAV, WMA, OGG, VOX, AU, AIFF, MP4, FLAC, SWF. Можно настраивать интонации, тембр звучащего голоса и качество воспроизведения звука. Поддерживается пакетная обработка файлов. Работает под операционными системами: Windows 2000/XP/Vista

Govorilka
Воспроизводит текст на русском языке. Возможна запись читаемого текста в звуковой файл (*.WAV, *.MP3), а также регулирование скорости чтения и высоты озвучивающего голоса. Можно добавлять словари произношений, и таким образом довольно легко корректировать произношение отдельных слов и словосочетаний. Может работать с большими файлами, открывает тексты из файлов .doc, HTML. Также запоминает позицию курсора при выходе из программы (чтобы потом начать чтения с того же самого места).

Синтезаторы речи, работающие под Linux-системами:

Festival
Первый релиз вышел в 2004 году. Предлагает полноценную систему воспроизведения человеческого голоса со всевозможными API. Помимо большого количества языков разных стран мира, поддерживает и русский язык. Festival входит в установочный пакет некоторых дистрибутивов Linux.

Espeak
Компактная, беплатная, распространяемая на основе лицензии GPL программа. Поставляется в дистрибутивах Debian GNU/Linux 4.0 “Etch”, Ubuntu 8.10 «Intrepid Ibex» и OpenSUSE 11.1. Поддерживает SSML (Speech Synthesis Markup Language).

FreeTTS
Также бесплатная программа. Разработана на основе Festival. Эту программу использует в своей работе Gnopernicus — приложение GNOME (графическая оболочка для Linux-систем), предназначенное для помощи работы с компьютером слепым и слабовидящим людям.

Читайте также

  • Несвободный Интернет: КНДРНесвободный Интернет: КНДР

    Полноценный доступ в Интернет в Северной Кореи практически невозможен, если только вы не партийный босс. По слухам, для высшего руководства КНДР существует специальный спутниковый линк для выхода в сеть.

  • Несвободный Интернет: ИранНесвободный Интернет: Иран

    Иранская блогосфера находятся под жестким контролем госструктур: за одно неосторожное слово в сети можно сесть в тюрьму, бесследно исчезнуть, применяется даже высшая мера наказания — сметрная казнь.

  • Несвободный Интернет: КубаНесвободный Интернет: Куба

    Пользоваться Интернетом кубинцам не по карману — доступ в глобальную сеть здесь стоит 6 долларов при средней зарплате в 20 долларов.

  • Случайная статья

    По этой ссылке каждый раз открывается одна из множества статей, которые есть у нас в  «Тексты».