ChatPaper.aiChatPaper

Creazione Automatica su Larga Scala di Audiolibri

Large-Scale Automatic Audiobook Creation

September 7, 2023
Autori: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI

Abstract

Un audiolibro può migliorare drasticamente l'accessibilità di un'opera letteraria e aumentare il coinvolgimento del lettore. Tuttavia, la creazione, l'editing e la pubblicazione di audiolibri possono richiedere centinaia di ore di lavoro umano. In questo lavoro, presentiamo un sistema in grado di generare automaticamente audiolibri di alta qualità a partire da e-book online. In particolare, sfruttiamo i recenti progressi nella sintesi vocale neurale per creare e rilasciare migliaia di audiolibri di qualità umana con licenza aperta, tratti dalla collezione di e-book di Project Gutenberg. Il nostro metodo è in grado di identificare il sottoinsieme corretto di contenuti da leggere per una vasta raccolta di libri con strutture diverse e può operare su centinaia di libri in parallelo. Il nostro sistema consente agli utenti di personalizzare la velocità e lo stile di lettura di un audiolibro, l'intonazione emotiva e può persino adattarsi a una voce desiderata utilizzando una piccola quantità di campioni audio. Questo lavoro ha contribuito con oltre cinquemila audiolibri a licenza aperta e una demo interattiva che permette agli utenti di creare rapidamente i propri audiolibri personalizzati. Per ascoltare la collezione di audiolibri, visitare https://aka.ms/audiobook.
English
An audiobook can dramatically improve a work of literature's accessibility and improve reader engagement. However, audiobooks can take hundreds of hours of human effort to create, edit, and publish. In this work, we present a system that can automatically generate high-quality audiobooks from online e-books. In particular, we leverage recent advances in neural text-to-speech to create and release thousands of human-quality, open-license audiobooks from the Project Gutenberg e-book collection. Our method can identify the proper subset of e-book content to read for a wide collection of diversely structured books and can operate on hundreds of books in parallel. Our system allows users to customize an audiobook's speaking speed and style, emotional intonation, and can even match a desired voice using a small amount of sample audio. This work contributed over five thousand open-license audiobooks and an interactive demo that allows users to quickly create their own customized audiobooks. To listen to the audiobook collection visit https://aka.ms/audiobook.
PDF552December 15, 2024