ChatPaper.aiChatPaper

Grootschalige Automatische Audioboekcreatie

Large-Scale Automatic Audiobook Creation

September 7, 2023
Auteurs: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI

Samenvatting

Een luisterboek kan de toegankelijkheid van een literair werk aanzienlijk verbeteren en de betrokkenheid van lezers vergroten. Het maken, bewerken en publiceren van luisterboeken kan echter honderden uren menselijke inspanning vergen. In dit werk presenteren we een systeem dat automatisch hoogwaardige luisterboeken kan genereren uit online e-boeken. In het bijzonder maken we gebruik van recente vooruitgang in neurale tekst-naar-spraaktechnologie om duizenden luisterboeken van menselijke kwaliteit met een open licentie te creëren en vrij te geven uit de e-boekencollectie van Project Gutenberg. Onze methode kan het juiste deel van de e-boekinhoud identificeren dat moet worden voorgelezen voor een brede verzameling divers gestructureerde boeken en kan op honderden boeken tegelijkertijd werken. Ons systeem stelt gebruikers in staat om de spreeksnelheid en -stijl, emotionele intonatie van een luisterboek aan te passen en kan zelfs een gewenste stem nabootsen met behulp van een kleine hoeveelheid voorbeeldaudio. Dit werk heeft bijgedragen aan meer dan vijfduizend luisterboeken met een open licentie en een interactieve demo waarmee gebruikers snel hun eigen gepersonaliseerde luisterboeken kunnen maken. Om naar de luisterboekencollectie te luisteren, bezoek https://aka.ms/audiobook.
English
An audiobook can dramatically improve a work of literature's accessibility and improve reader engagement. However, audiobooks can take hundreds of hours of human effort to create, edit, and publish. In this work, we present a system that can automatically generate high-quality audiobooks from online e-books. In particular, we leverage recent advances in neural text-to-speech to create and release thousands of human-quality, open-license audiobooks from the Project Gutenberg e-book collection. Our method can identify the proper subset of e-book content to read for a wide collection of diversely structured books and can operate on hundreds of books in parallel. Our system allows users to customize an audiobook's speaking speed and style, emotional intonation, and can even match a desired voice using a small amount of sample audio. This work contributed over five thousand open-license audiobooks and an interactive demo that allows users to quickly create their own customized audiobooks. To listen to the audiobook collection visit https://aka.ms/audiobook.
PDF552December 15, 2024