ChatPaper.aiChatPaper

Groß angelegte automatische Hörbuch-Erstellung

Large-Scale Automatic Audiobook Creation

September 7, 2023
Autoren: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI

Zusammenfassung

Ein Hörbuch kann die Zugänglichkeit eines literarischen Werks erheblich verbessern und das Leserengagement steigern. Allerdings können Hörbücher Hunderte von Stunden menschlicher Arbeit erfordern, um erstellt, bearbeitet und veröffentlicht zu werden. In dieser Arbeit präsentieren wir ein System, das automatisch hochwertige Hörbücher aus Online-E-Books generieren kann. Insbesondere nutzen wir die jüngsten Fortschritte im Bereich des neuronalen Text-zu-Sprache-Systems, um Tausende von Hörbüchern in menschlicher Qualität mit offener Lizenz aus der E-Book-Sammlung von Project Gutenberg zu erstellen und zu veröffentlichen. Unser Verfahren kann die richtige Teilmenge des E-Book-Inhalts identifizieren, die für eine breite Sammlung von Büchern mit unterschiedlichen Strukturen vorgelesen werden soll, und kann Hunderte von Büchern parallel verarbeiten. Unser System ermöglicht es Benutzern, die Sprechgeschwindigkeit und den Stil eines Hörbuchs anzupassen, die emotionale Intonation zu steuern und sogar eine gewünschte Stimme anhand einer kleinen Menge von Audio-Beispielen nachzuahmen. Diese Arbeit hat über fünftausend Hörbücher mit offener Lizenz sowie eine interaktive Demo beigesteuert, die es Benutzern ermöglicht, schnell ihre eigenen personalisierten Hörbücher zu erstellen. Um die Hörbuchsammlung anzuhören, besuchen Sie https://aka.ms/audiobook.
English
An audiobook can dramatically improve a work of literature's accessibility and improve reader engagement. However, audiobooks can take hundreds of hours of human effort to create, edit, and publish. In this work, we present a system that can automatically generate high-quality audiobooks from online e-books. In particular, we leverage recent advances in neural text-to-speech to create and release thousands of human-quality, open-license audiobooks from the Project Gutenberg e-book collection. Our method can identify the proper subset of e-book content to read for a wide collection of diversely structured books and can operate on hundreds of books in parallel. Our system allows users to customize an audiobook's speaking speed and style, emotional intonation, and can even match a desired voice using a small amount of sample audio. This work contributed over five thousand open-license audiobooks and an interactive demo that allows users to quickly create their own customized audiobooks. To listen to the audiobook collection visit https://aka.ms/audiobook.
PDF542December 15, 2024