ChatPaper.aiChatPaper

大規模自動オーディオブック生成

Large-Scale Automatic Audiobook Creation

September 7, 2023
著者: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
cs.AI

要旨

オーディオブックは文学作品のアクセシビリティを劇的に向上させ、読者の関与を高めることができます。しかし、オーディオブックの作成、編集、公開には数百時間もの人的労力がかかります。本論文では、オンラインの電子書籍から高品質なオーディオブックを自動生成するシステムを提案します。特に、ニューラルテキスト読み上げ技術の最新の進展を活用し、プロジェクト・グーテンベルクの電子書籍コレクションから数千冊の人間レベルの品質を持つオープンライセンスのオーディオブックを作成・公開しました。私たちの手法は、多様な構造を持つ書籍の適切なサブセットを識別し、数百冊の書籍を並行して処理することができます。また、ユーザーがオーディオブックの話す速度やスタイル、感情的なイントネーションをカスタマイズできるだけでなく、少量のサンプル音声を使用して希望の声に合わせることも可能です。この研究は、5000冊以上のオープンライセンスのオーディオブックと、ユーザーが迅速にカスタマイズされたオーディオブックを作成できるインタラクティブなデモを提供しました。オーディオブックコレクションを聴くには、https://aka.ms/audiobook をご覧ください。
English
An audiobook can dramatically improve a work of literature's accessibility and improve reader engagement. However, audiobooks can take hundreds of hours of human effort to create, edit, and publish. In this work, we present a system that can automatically generate high-quality audiobooks from online e-books. In particular, we leverage recent advances in neural text-to-speech to create and release thousands of human-quality, open-license audiobooks from the Project Gutenberg e-book collection. Our method can identify the proper subset of e-book content to read for a wide collection of diversely structured books and can operate on hundreds of books in parallel. Our system allows users to customize an audiobook's speaking speed and style, emotional intonation, and can even match a desired voice using a small amount of sample audio. This work contributed over five thousand open-license audiobooks and an interactive demo that allows users to quickly create their own customized audiobooks. To listen to the audiobook collection visit https://aka.ms/audiobook.
PDF542December 15, 2024