Нейросеть научили читать по губам

Тренировалась она на дикторах BBC

Новую систему для распознавания речи представили разработчики из Оксфордского университета и лаборатории Google DeepMind. Они обучили нейросеть «понимать» речь ведущих, используя телепрограммы BBC, вроде Newsnight, BBC Breakfast и Question Time.

Всего нейросетью было «просмотрено» 5 000 часов эфира, которые содержат 118 116 предложений человеческой речи. Предварительно эти записи были обработаны: ученым пришлось синхронизировать звук и видео в каждом видеоролике, чтобы система смогла найти соответствие. Также в помощь был разработан модуль для распознавания речи WLAS (Watch, Listen, Attend and Spell).

После завершения обучения нейросеть протестировали на незнакомых ей программах. В итоге она смогла прочесть по губам речь телеведущих с точностью 46,8%. Отмечается также, что многие ошибки, сделанные системой, были крайне незначительны и не влияли на общее восприятие текста. При этом такое же задание человек, профессионально занимающийся чтением по губам, выполнил на 12,4%.

Екатерина Еремеева

24.11.16, 14:32

  • Фото: giphy.com
  • Фото: Архивы пресс- служб Alphabet DeepMind