CapSpeech: Включение последующих приложений в синтез речи с учетом стиля в текстовых описаниях

Аннотация

Последние достижения в области генеративного искусственного интеллекта значительно преобразовали сферу синтеза речи с описанием стиля (CapTTS). Однако адаптация CapTTS к реальным приложениям остается сложной задачей из-за отсутствия стандартизированных, всеобъемлющих наборов данных и ограниченных исследований по задачам, основанным на CapTTS. Для устранения этих пробелов мы представляем CapSpeech — новый эталонный набор данных, разработанный для серии задач, связанных с CapTTS, включая синтез речи с описанием стиля и звуковых событий (CapTTS-SE), синтез речи с описанием акцента (AccCapTTS), синтез речи с описанием эмоций (EmoCapTTS) и синтез речи для чат-агентов (AgentTTS). CapSpeech включает более 10 миллионов машинно-аннотированных пар аудио-описание и почти 0,36 миллиона человечески-аннотированных пар аудио-описание. Кроме того, мы представляем два новых набора данных, собранных и записанных профессиональным актером озвучивания и опытными звукорежиссерами, специально для задач AgentTTS и CapTTS-SE. Наряду с наборами данных мы проводим всесторонние эксперименты с использованием как авторегрессивных, так и неавторегрессивных моделей на CapSpeech. Наши результаты демонстрируют синтез речи высокой четкости и разборчивости в широком диапазоне стилей речи. Насколько нам известно, CapSpeech является крупнейшим доступным набором данных, предлагающим всеобъемлющие аннотации для задач, связанных с CapTTS. Эксперименты и выводы также предоставляют ценные инсайты в разработку систем CapTTS.

English

Recent advancements in generative artificial intelligence have significantly transformed the field of style-captioned text-to-speech synthesis (CapTTS). However, adapting CapTTS to real-world applications remains challenging due to the lack of standardized, comprehensive datasets and limited research on downstream tasks built upon CapTTS. To address these gaps, we introduce CapSpeech, a new benchmark designed for a series of CapTTS-related tasks, including style-captioned text-to-speech synthesis with sound events (CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS (EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36 million human-annotated audio-caption pairs. In addition, we introduce two new datasets collected and recorded by a professional voice actor and experienced audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside the datasets, we conduct comprehensive experiments using both autoregressive and non-autoregressive models on CapSpeech. Our results demonstrate high-fidelity and highly intelligible speech synthesis across a diverse range of speaking styles. To the best of our knowledge, CapSpeech is the largest available dataset offering comprehensive annotations for CapTTS-related tasks. The experiments and findings further provide valuable insights into the challenges of developing CapTTS systems.

CapSpeech: Включение последующих приложений в синтез речи с учетом стиля в текстовых описаниях

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

Аннотация

Support