CapSpeech: Abilitazione di Applicazioni Downstream nel Text-to-Speech con Didascalie Stilizzate
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
June 3, 2025
Autori: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI
Abstract
I recenti progressi nell'intelligenza artificiale generativa hanno trasformato significativamente il campo della sintesi vocale da testo con didascalie di stile (CapTTS). Tuttavia, l'adattamento del CapTTS alle applicazioni del mondo reale rimane una sfida a causa della mancanza di dataset standardizzati e completi e della ricerca limitata sui task downstream basati su CapTTS. Per colmare queste lacune, introduciamo CapSpeech, un nuovo benchmark progettato per una serie di task correlati al CapTTS, tra cui la sintesi vocale da testo con didascalie di stile e eventi sonori (CapTTS-SE), la sintesi vocale con didascalie di accento (AccCapTTS), la sintesi vocale con didascalie di emozione (EmoCapTTS) e la sintesi vocale per agenti di chat (AgentTTS). CapSpeech comprende oltre 10 milioni di coppie audio-didascalia annotate automaticamente e quasi 0,36 milioni di coppie audio-didascalia annotate manualmente. Inoltre, introduciamo due nuovi dataset raccolti e registrati da un doppiatore professionista e ingegneri audio esperti, specificamente per i task AgentTTS e CapTTS-SE. Accanto ai dataset, conduciamo esperimenti completi utilizzando sia modelli autoregressivi che non autoregressivi su CapSpeech. I nostri risultati dimostrano una sintesi vocale ad alta fedeltà e altamente intelligibile in un'ampia gamma di stili di parlato. Per quanto ne sappiamo, CapSpeech è il più grande dataset disponibile che offre annotazioni complete per i task correlati al CapTTS. Gli esperimenti e i risultati forniscono inoltre preziose intuizioni sulle sfide nello sviluppo dei sistemi CapTTS.
English
Recent advancements in generative artificial intelligence have significantly
transformed the field of style-captioned text-to-speech synthesis (CapTTS).
However, adapting CapTTS to real-world applications remains challenging due to
the lack of standardized, comprehensive datasets and limited research on
downstream tasks built upon CapTTS. To address these gaps, we introduce
CapSpeech, a new benchmark designed for a series of CapTTS-related tasks,
including style-captioned text-to-speech synthesis with sound events
(CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS
(EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech
comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36
million human-annotated audio-caption pairs. In addition, we introduce two new
datasets collected and recorded by a professional voice actor and experienced
audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside
the datasets, we conduct comprehensive experiments using both autoregressive
and non-autoregressive models on CapSpeech. Our results demonstrate
high-fidelity and highly intelligible speech synthesis across a diverse range
of speaking styles. To the best of our knowledge, CapSpeech is the largest
available dataset offering comprehensive annotations for CapTTS-related tasks.
The experiments and findings further provide valuable insights into the
challenges of developing CapTTS systems.