CapSpeech : Permettre des applications en aval dans la synthèse vocale avec sous-titres stylisés
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
June 3, 2025
Auteurs: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI
Résumé
Les récents progrès en intelligence artificielle générative ont considérablement transformé le domaine de la synthèse vocale à partir de texte avec légendes de style (CapTTS). Cependant, l'adaptation de CapTTS à des applications réelles reste un défi en raison de l'absence de jeux de données standardisés et complets, ainsi que de la recherche limitée sur les tâches en aval basées sur CapTTS. Pour combler ces lacunes, nous présentons CapSpeech, un nouveau benchmark conçu pour une série de tâches liées à CapTTS, incluant la synthèse vocale à partir de texte avec légendes de style et événements sonores (CapTTS-SE), la synthèse vocale avec légendes d'accent (AccCapTTS), la synthèse vocale avec légendes d'émotion (EmoCapTTS), et la synthèse vocale pour agents conversationnels (AgentTTS). CapSpeech comprend plus de 10 millions de paires audio-légendes annotées automatiquement et près de 0,36 million de paires audio-légendes annotées manuellement. En outre, nous introduisons deux nouveaux jeux de données collectés et enregistrés par un acteur vocal professionnel et des ingénieurs audio expérimentés, spécifiquement pour les tâches AgentTTS et CapTTS-SE. Parallèlement aux jeux de données, nous menons des expériences approfondies en utilisant des modèles autorégressifs et non autorégressifs sur CapSpeech. Nos résultats démontrent une synthèse vocale de haute fidélité et très intelligible à travers une diversité de styles de parole. À notre connaissance, CapSpeech est le plus grand jeu de données disponible offrant des annotations complètes pour les tâches liées à CapTTS. Les expériences et les conclusions fournissent également des insights précieux sur les défis du développement des systèmes CapTTS.
English
Recent advancements in generative artificial intelligence have significantly
transformed the field of style-captioned text-to-speech synthesis (CapTTS).
However, adapting CapTTS to real-world applications remains challenging due to
the lack of standardized, comprehensive datasets and limited research on
downstream tasks built upon CapTTS. To address these gaps, we introduce
CapSpeech, a new benchmark designed for a series of CapTTS-related tasks,
including style-captioned text-to-speech synthesis with sound events
(CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS
(EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech
comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36
million human-annotated audio-caption pairs. In addition, we introduce two new
datasets collected and recorded by a professional voice actor and experienced
audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside
the datasets, we conduct comprehensive experiments using both autoregressive
and non-autoregressive models on CapSpeech. Our results demonstrate
high-fidelity and highly intelligible speech synthesis across a diverse range
of speaking styles. To the best of our knowledge, CapSpeech is the largest
available dataset offering comprehensive annotations for CapTTS-related tasks.
The experiments and findings further provide valuable insights into the
challenges of developing CapTTS systems.