ChatPaper.aiChatPaper

CapSpeech: Habilitando Aplicações Downstream em Texto-para-Fala com Legendas Estilizadas

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

June 3, 2025
Autores: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI

Resumo

Avanços recentes na inteligência artificial generativa transformaram significativamente o campo da síntese de texto para fala com legendas de estilo (CapTTS). No entanto, a adaptação do CapTTS para aplicações do mundo real continua desafiadora devido à falta de conjuntos de dados padronizados e abrangentes e à pesquisa limitada sobre tarefas subsequentes baseadas no CapTTS. Para abordar essas lacunas, apresentamos o CapSpeech, um novo benchmark projetado para uma série de tarefas relacionadas ao CapTTS, incluindo síntese de texto para fala com legendas de estilo e eventos sonoros (CapTTS-SE), TTS com legendas de sotaque (AccCapTTS), TTS com legendas de emoção (EmoCapTTS) e síntese de texto para fala para agentes de chat (AgentTTS). O CapSpeech compreende mais de 10 milhões de pares áudio-legenda anotados por máquina e quase 0,36 milhão de pares áudio-legenda anotados por humanos. Além disso, introduzimos dois novos conjuntos de dados coletados e gravados por um dublador profissional e engenheiros de áudio experientes, especificamente para as tarefas de AgentTTS e CapTTS-SE. Juntamente com os conjuntos de dados, realizamos experimentos abrangentes usando modelos autoregressivos e não autoregressivos no CapSpeech. Nossos resultados demonstram síntese de fala de alta fidelidade e altamente inteligível em uma ampla variedade de estilos de fala. Até onde sabemos, o CapSpeech é o maior conjunto de dados disponível que oferece anotações abrangentes para tarefas relacionadas ao CapTTS. Os experimentos e descobertas fornecem ainda insights valiosos sobre os desafios no desenvolvimento de sistemas CapTTS.
English
Recent advancements in generative artificial intelligence have significantly transformed the field of style-captioned text-to-speech synthesis (CapTTS). However, adapting CapTTS to real-world applications remains challenging due to the lack of standardized, comprehensive datasets and limited research on downstream tasks built upon CapTTS. To address these gaps, we introduce CapSpeech, a new benchmark designed for a series of CapTTS-related tasks, including style-captioned text-to-speech synthesis with sound events (CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS (EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36 million human-annotated audio-caption pairs. In addition, we introduce two new datasets collected and recorded by a professional voice actor and experienced audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside the datasets, we conduct comprehensive experiments using both autoregressive and non-autoregressive models on CapSpeech. Our results demonstrate high-fidelity and highly intelligible speech synthesis across a diverse range of speaking styles. To the best of our knowledge, CapSpeech is the largest available dataset offering comprehensive annotations for CapTTS-related tasks. The experiments and findings further provide valuable insights into the challenges of developing CapTTS systems.
PDF73June 5, 2025