CapSpeech: Ermöglichung nachgelagerter Anwendungen in stilbeschrifteter Text-zu-Sprache
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
June 3, 2025
Autoren: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI
Zusammenfassung
Jüngste Fortschritte in der generativen künstlichen Intelligenz haben das Feld der stilbeschrifteten Text-zu-Sprache-Synthese (CapTTS) erheblich verändert. Die Anpassung von CapTTS an reale Anwendungen bleibt jedoch aufgrund des Mangels an standardisierten, umfassenden Datensätzen und der begrenzten Forschung zu darauf aufbauenden Downstream-Aufgaben eine Herausforderung. Um diese Lücken zu schließen, stellen wir CapSpeech vor, einen neuen Benchmark, der für eine Reihe von CapTTS-bezogenen Aufgaben entwickelt wurde, darunter stilbeschriftete Text-zu-Sprache-Synthese mit Soundereignissen (CapTTS-SE), akzentbeschriftete TTS (AccCapTTS), emotionsbeschriftete TTS (EmoCapTTS) und Text-zu-Sprache-Synthese für Chat-Agenten (AgentTTS). CapSpeech umfasst über 10 Millionen maschinell annotierte Audio-Beschriftungs-Paare und fast 0,36 Millionen manuell annotierte Audio-Beschriftungs-Paare. Zusätzlich führen wir zwei neue Datensätze ein, die von einem professionellen Synchronsprecher und erfahrenen Tontechnikern speziell für die Aufgaben AgentTTS und CapTTS-SE gesammelt und aufgenommen wurden. Neben den Datensätzen führen wir umfassende Experimente mit sowohl autoregressiven als auch nicht-autoregressiven Modellen auf CapSpeech durch. Unsere Ergebnisse zeigen eine hochwertige und sehr verständliche Sprachsynthese über eine Vielzahl von Sprechstilen hinweg. Nach unserem besten Wissen ist CapSpeech der größte verfügbare Datensatz, der umfassende Annotationen für CapTTS-bezogene Aufgaben bietet. Die Experimente und Erkenntnisse liefern zudem wertvolle Einblicke in die Herausforderungen bei der Entwicklung von CapTTS-Systemen.
English
Recent advancements in generative artificial intelligence have significantly
transformed the field of style-captioned text-to-speech synthesis (CapTTS).
However, adapting CapTTS to real-world applications remains challenging due to
the lack of standardized, comprehensive datasets and limited research on
downstream tasks built upon CapTTS. To address these gaps, we introduce
CapSpeech, a new benchmark designed for a series of CapTTS-related tasks,
including style-captioned text-to-speech synthesis with sound events
(CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS
(EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech
comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36
million human-annotated audio-caption pairs. In addition, we introduce two new
datasets collected and recorded by a professional voice actor and experienced
audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside
the datasets, we conduct comprehensive experiments using both autoregressive
and non-autoregressive models on CapSpeech. Our results demonstrate
high-fidelity and highly intelligible speech synthesis across a diverse range
of speaking styles. To the best of our knowledge, CapSpeech is the largest
available dataset offering comprehensive annotations for CapTTS-related tasks.
The experiments and findings further provide valuable insights into the
challenges of developing CapTTS systems.