Création Automatisée à Grande Échelle de Livres Audio
Large-Scale Automatic Audiobook Creation
September 7, 2023
Auteurs: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI
Résumé
Un livre audio peut considérablement améliorer l'accessibilité d'une œuvre littéraire et renforcer l'engagement des lecteurs. Cependant, la création, l'édition et la publication de livres audio peuvent nécessiter des centaines d'heures de travail humain. Dans ce travail, nous présentons un système capable de générer automatiquement des livres audio de haute qualité à partir de livres électroniques en ligne. En particulier, nous exploitons les récentes avancées en synthèse vocale neuronale pour créer et diffuser des milliers de livres audio de qualité humaine sous licence ouverte, issus de la collection de livres électroniques du Projet Gutenberg. Notre méthode permet d'identifier la partie pertinente du contenu à lire pour une vaste collection de livres aux structures variées et peut traiter des centaines de livres en parallèle. Notre système permet aux utilisateurs de personnaliser la vitesse et le style de lecture d'un livre audio, l'intonation émotionnelle, et peut même correspondre à une voix souhaitée en utilisant un petit échantillon audio. Ce travail a contribué à la création de plus de cinq mille livres audio sous licence ouverte et propose une démonstration interactive permettant aux utilisateurs de créer rapidement leurs propres livres audio personnalisés. Pour écouter la collection de livres audio, visitez https://aka.ms/audiobook.
English
An audiobook can dramatically improve a work of literature's accessibility
and improve reader engagement. However, audiobooks can take hundreds of hours
of human effort to create, edit, and publish. In this work, we present a system
that can automatically generate high-quality audiobooks from online e-books. In
particular, we leverage recent advances in neural text-to-speech to create and
release thousands of human-quality, open-license audiobooks from the Project
Gutenberg e-book collection. Our method can identify the proper subset of
e-book content to read for a wide collection of diversely structured books and
can operate on hundreds of books in parallel. Our system allows users to
customize an audiobook's speaking speed and style, emotional intonation, and
can even match a desired voice using a small amount of sample audio. This work
contributed over five thousand open-license audiobooks and an interactive demo
that allows users to quickly create their own customized audiobooks. To listen
to the audiobook collection visit https://aka.ms/audiobook.