ChatPaper.aiChatPaper

대규모 자동 오디오북 생성

Large-Scale Automatic Audiobook Creation

September 7, 2023
저자: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI

초록

오디오북은 문학 작품의 접근성을 극적으로 향상시키고 독자 참여도를 높일 수 있습니다. 그러나 오디오북 제작에는 수백 시간의 인력이 투입되어야 하며, 이를 편집하고 출판하는 데도 상당한 노력이 필요합니다. 본 연구에서는 온라인 전자책에서 고품질 오디오북을 자동으로 생성할 수 있는 시스템을 제시합니다. 특히, 최신 신경망 기반 텍스트-음성 변환 기술을 활용하여 프로젝트 구텐베르크 전자책 컬렉션에서 수천 개의 인간 수준의 오픈 라이선스 오디오북을 제작 및 공개했습니다. 우리의 방법은 다양한 구조를 가진 광범위한 책 컬렉션에서 읽어야 할 적절한 부분을 식별할 수 있으며, 수백 권의 책을 병렬로 처리할 수 있습니다. 이 시스템은 사용자가 오디오북의 말하기 속도와 스타일, 감정적 억양을 맞춤 설정할 수 있도록 하며, 소량의 샘플 오디오를 사용하여 원하는 목소리와 일치시킬 수도 있습니다. 이 연구는 5천 개 이상의 오픈 라이선스 오디오북과 사용자가 빠르게 자신만의 맞춤형 오디오북을 만들 수 있는 인터랙티브 데모를 제공했습니다. 오디오북 컬렉션을 들어보려면 https://aka.ms/audiobook을 방문하세요.
English
An audiobook can dramatically improve a work of literature's accessibility and improve reader engagement. However, audiobooks can take hundreds of hours of human effort to create, edit, and publish. In this work, we present a system that can automatically generate high-quality audiobooks from online e-books. In particular, we leverage recent advances in neural text-to-speech to create and release thousands of human-quality, open-license audiobooks from the Project Gutenberg e-book collection. Our method can identify the proper subset of e-book content to read for a wide collection of diversely structured books and can operate on hundreds of books in parallel. Our system allows users to customize an audiobook's speaking speed and style, emotional intonation, and can even match a desired voice using a small amount of sample audio. This work contributed over five thousand open-license audiobooks and an interactive demo that allows users to quickly create their own customized audiobooks. To listen to the audiobook collection visit https://aka.ms/audiobook.
PDF542December 15, 2024