CapSpeech: Habilitando aplicaciones posteriores en síntesis de voz con subtítulos de estilo
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
June 3, 2025
Autores: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI
Resumen
Los recientes avances en inteligencia artificial generativa han transformado significativamente el campo de la síntesis de voz a partir de texto con subtítulos de estilo (CapTTS). Sin embargo, adaptar CapTTS a aplicaciones del mundo real sigue siendo un desafío debido a la falta de conjuntos de datos estandarizados y exhaustivos, así como a la investigación limitada sobre tareas posteriores basadas en CapTTS. Para abordar estas brechas, presentamos CapSpeech, un nuevo punto de referencia diseñado para una serie de tareas relacionadas con CapTTS, incluyendo la síntesis de voz a partir de texto con subtítulos de estilo y eventos sonoros (CapTTS-SE), TTS con subtítulos de acento (AccCapTTS), TTS con subtítulos de emoción (EmoCapTTS) y la síntesis de voz para agentes de chat (AgentTTS). CapSpeech comprende más de 10 millones de pares audio-subtítulo anotados automáticamente y cerca de 0.36 millones de pares audio-subtítulo anotados manualmente. Además, introducimos dos nuevos conjuntos de datos recopilados y grabados por un actor de voz profesional e ingenieros de audio experimentados, específicamente para las tareas de AgentTTS y CapTTS-SE. Junto con los conjuntos de datos, realizamos experimentos exhaustivos utilizando modelos tanto autorregresivos como no autorregresivos en CapSpeech. Nuestros resultados demuestran una síntesis de voz de alta fidelidad y gran inteligibilidad en una amplia gama de estilos de habla. Hasta donde sabemos, CapSpeech es el conjunto de datos más grande disponible que ofrece anotaciones exhaustivas para tareas relacionadas con CapTTS. Los experimentos y hallazgos proporcionan además valiosas perspectivas sobre los desafíos de desarrollar sistemas CapTTS.
English
Recent advancements in generative artificial intelligence have significantly
transformed the field of style-captioned text-to-speech synthesis (CapTTS).
However, adapting CapTTS to real-world applications remains challenging due to
the lack of standardized, comprehensive datasets and limited research on
downstream tasks built upon CapTTS. To address these gaps, we introduce
CapSpeech, a new benchmark designed for a series of CapTTS-related tasks,
including style-captioned text-to-speech synthesis with sound events
(CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS
(EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech
comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36
million human-annotated audio-caption pairs. In addition, we introduce two new
datasets collected and recorded by a professional voice actor and experienced
audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside
the datasets, we conduct comprehensive experiments using both autoregressive
and non-autoregressive models on CapSpeech. Our results demonstrate
high-fidelity and highly intelligible speech synthesis across a diverse range
of speaking styles. To the best of our knowledge, CapSpeech is the largest
available dataset offering comprehensive annotations for CapTTS-related tasks.
The experiments and findings further provide valuable insights into the
challenges of developing CapTTS systems.