Criação Automatizada de Audiobooks em Grande Escala
Large-Scale Automatic Audiobook Creation
September 7, 2023
Autores: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI
Resumo
Um audiolivro pode melhorar drasticamente a acessibilidade de uma obra literária e aumentar o engajamento do leitor. No entanto, a criação, edição e publicação de audiolivros podem demandar centenas de horas de esforço humano. Neste trabalho, apresentamos um sistema capaz de gerar automaticamente audiolivros de alta qualidade a partir de e-books online. Em particular, aproveitamos os avanços recentes em síntese de fala neural para criar e disponibilizar milhares de audiolivros de qualidade humana com licença aberta, extraídos da coleção de e-books do Project Gutenberg. Nosso método é capaz de identificar o subconjunto adequado do conteúdo do e-book para leitura em uma ampla coleção de livros com estruturas diversas e pode operar em centenas de livros em paralelo. Nosso sistema permite que os usuários personalizem a velocidade e o estilo de fala do audiolivro, a entonação emocional e até mesmo correspondam a uma voz desejada usando uma pequena quantidade de áudio de amostra. Este trabalho contribuiu com mais de cinco mil audiolivros de licença aberta e uma demonstração interativa que permite aos usuários criar rapidamente seus próprios audiolivros personalizados. Para ouvir a coleção de audiolivros, visite https://aka.ms/audiobook.
English
An audiobook can dramatically improve a work of literature's accessibility
and improve reader engagement. However, audiobooks can take hundreds of hours
of human effort to create, edit, and publish. In this work, we present a system
that can automatically generate high-quality audiobooks from online e-books. In
particular, we leverage recent advances in neural text-to-speech to create and
release thousands of human-quality, open-license audiobooks from the Project
Gutenberg e-book collection. Our method can identify the proper subset of
e-book content to read for a wide collection of diversely structured books and
can operate on hundreds of books in parallel. Our system allows users to
customize an audiobook's speaking speed and style, emotional intonation, and
can even match a desired voice using a small amount of sample audio. This work
contributed over five thousand open-license audiobooks and an interactive demo
that allows users to quickly create their own customized audiobooks. To listen
to the audiobook collection visit https://aka.ms/audiobook.