Крупномасштабное автоматизированное создание аудиокниг
Large-Scale Automatic Audiobook Creation
September 7, 2023
Авторы: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI
Аннотация
Аудиокниги могут значительно повысить доступность литературных произведений и улучшить вовлеченность читателей. Однако создание, редактирование и публикация аудиокниг могут занимать сотни часов человеческого труда. В данной работе мы представляем систему, способную автоматически генерировать высококачественные аудиокниги из электронных книг, доступных в интернете. В частности, мы используем последние достижения в области нейронного синтеза речи для создания и выпуска тысяч аудиокниг с качеством, сопоставимым с человеческим, на основе коллекции электронных книг Project Gutenberg. Наш метод позволяет определить правильный поднабор содержимого электронной книги для чтения в широком спектре разнообразно структурированных книг и может обрабатывать сотни книг параллельно. Наша система позволяет пользователям настраивать скорость и стиль речи, эмоциональную интонацию аудиокниги и даже подбирать голос, соответствующий желаемому, с использованием небольшого образца аудио. Эта работа внесла вклад в создание более пяти тысяч аудиокниг с открытой лицензией и интерактивной демонстрации, позволяющей пользователям быстро создавать свои собственные настраиваемые аудиокниги. Чтобы прослушать коллекцию аудиокниг, посетите https://aka.ms/audiobook.
English
An audiobook can dramatically improve a work of literature's accessibility
and improve reader engagement. However, audiobooks can take hundreds of hours
of human effort to create, edit, and publish. In this work, we present a system
that can automatically generate high-quality audiobooks from online e-books. In
particular, we leverage recent advances in neural text-to-speech to create and
release thousands of human-quality, open-license audiobooks from the Project
Gutenberg e-book collection. Our method can identify the proper subset of
e-book content to read for a wide collection of diversely structured books and
can operate on hundreds of books in parallel. Our system allows users to
customize an audiobook's speaking speed and style, emotional intonation, and
can even match a desired voice using a small amount of sample audio. This work
contributed over five thousand open-license audiobooks and an interactive demo
that allows users to quickly create their own customized audiobooks. To listen
to the audiobook collection visit https://aka.ms/audiobook.