Creación Automatizada de Audiolibros a Gran Escala
Large-Scale Automatic Audiobook Creation
September 7, 2023
Autores: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI
Resumen
Un audiolibro puede mejorar drásticamente la accesibilidad de una obra literaria y aumentar el compromiso del lector. Sin embargo, la creación, edición y publicación de audiolibros puede requerir cientos de horas de esfuerzo humano. En este trabajo, presentamos un sistema capaz de generar automáticamente audiolibros de alta calidad a partir de libros electrónicos en línea. En particular, aprovechamos los avances recientes en la síntesis de voz neuronal para crear y publicar miles de audiolibros de calidad humana con licencia abierta, extraídos de la colección de libros electrónicos de Project Gutenberg. Nuestro método puede identificar el subconjunto adecuado del contenido de un libro electrónico para leerlo en una amplia colección de libros con estructuras diversas, y puede procesar cientos de libros en paralelo. Nuestro sistema permite a los usuarios personalizar la velocidad y el estilo de habla de un audiolibro, la entonación emocional, e incluso puede adaptarse a una voz deseada utilizando una pequeña cantidad de audio de muestra. Este trabajo ha contribuido con más de cinco mil audiolibros de licencia abierta y una demostración interactiva que permite a los usuarios crear rápidamente sus propios audiolibros personalizados. Para escuchar la colección de audiolibros, visite https://aka.ms/audiobook.
English
An audiobook can dramatically improve a work of literature's accessibility
and improve reader engagement. However, audiobooks can take hundreds of hours
of human effort to create, edit, and publish. In this work, we present a system
that can automatically generate high-quality audiobooks from online e-books. In
particular, we leverage recent advances in neural text-to-speech to create and
release thousands of human-quality, open-license audiobooks from the Project
Gutenberg e-book collection. Our method can identify the proper subset of
e-book content to read for a wide collection of diversely structured books and
can operate on hundreds of books in parallel. Our system allows users to
customize an audiobook's speaking speed and style, emotional intonation, and
can even match a desired voice using a small amount of sample audio. This work
contributed over five thousand open-license audiobooks and an interactive demo
that allows users to quickly create their own customized audiobooks. To listen
to the audiobook collection visit https://aka.ms/audiobook.