CapSpeech: Включение последующих приложений в синтез речи с учетом стиля в текстовых описаниях
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
June 3, 2025
Авторы: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI
Аннотация
Последние достижения в области генеративного искусственного интеллекта значительно преобразовали сферу синтеза речи с описанием стиля (CapTTS). Однако адаптация CapTTS к реальным приложениям остается сложной задачей из-за отсутствия стандартизированных, всеобъемлющих наборов данных и ограниченных исследований по задачам, основанным на CapTTS. Для устранения этих пробелов мы представляем CapSpeech — новый эталонный набор данных, разработанный для серии задач, связанных с CapTTS, включая синтез речи с описанием стиля и звуковых событий (CapTTS-SE), синтез речи с описанием акцента (AccCapTTS), синтез речи с описанием эмоций (EmoCapTTS) и синтез речи для чат-агентов (AgentTTS). CapSpeech включает более 10 миллионов машинно-аннотированных пар аудио-описание и почти 0,36 миллиона человечески-аннотированных пар аудио-описание. Кроме того, мы представляем два новых набора данных, собранных и записанных профессиональным актером озвучивания и опытными звукорежиссерами, специально для задач AgentTTS и CapTTS-SE. Наряду с наборами данных мы проводим всесторонние эксперименты с использованием как авторегрессивных, так и неавторегрессивных моделей на CapSpeech. Наши результаты демонстрируют синтез речи высокой четкости и разборчивости в широком диапазоне стилей речи. Насколько нам известно, CapSpeech является крупнейшим доступным набором данных, предлагающим всеобъемлющие аннотации для задач, связанных с CapTTS. Эксперименты и выводы также предоставляют ценные инсайты в разработку систем CapTTS.
English
Recent advancements in generative artificial intelligence have significantly
transformed the field of style-captioned text-to-speech synthesis (CapTTS).
However, adapting CapTTS to real-world applications remains challenging due to
the lack of standardized, comprehensive datasets and limited research on
downstream tasks built upon CapTTS. To address these gaps, we introduce
CapSpeech, a new benchmark designed for a series of CapTTS-related tasks,
including style-captioned text-to-speech synthesis with sound events
(CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS
(EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech
comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36
million human-annotated audio-caption pairs. In addition, we introduce two new
datasets collected and recorded by a professional voice actor and experienced
audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside
the datasets, we conduct comprehensive experiments using both autoregressive
and non-autoregressive models on CapSpeech. Our results demonstrate
high-fidelity and highly intelligible speech synthesis across a diverse range
of speaking styles. To the best of our knowledge, CapSpeech is the largest
available dataset offering comprehensive annotations for CapTTS-related tasks.
The experiments and findings further provide valuable insights into the
challenges of developing CapTTS systems.