CapSpeech: Het mogelijk maken van downstream toepassingen in stijlgecaptioneerde tekst-naar-spraak
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
June 3, 2025
Auteurs: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI
Samenvatting
Recente ontwikkelingen in generatieve kunstmatige intelligentie hebben het vakgebied van stijlgeannoteerde tekst-naar-spraaksynthese (CapTTS) aanzienlijk getransformeerd. Het aanpassen van CapTTS aan real-world toepassingen blijft echter een uitdaging vanwege het ontbreken van gestandaardiseerde, uitgebreide datasets en beperkt onderzoek naar downstream taken die op CapTTS zijn gebouwd. Om deze lacunes aan te pakken, introduceren we CapSpeech, een nieuwe benchmark ontworpen voor een reeks CapTTS-gerelateerde taken, waaronder stijlgeannoteerde tekst-naar-spraaksynthese met geluidsgebeurtenissen (CapTTS-SE), accentgeannoteerde TTS (AccCapTTS), emotiegeannoteerde TTS (EmoCapTTS) en tekst-naar-spraaksynthese voor chatagents (AgentTTS). CapSpeech omvat meer dan 10 miljoen machine-geannoteerde audio-caption paren en bijna 0,36 miljoen handmatig geannoteerde audio-caption paren. Daarnaast introduceren we twee nieuwe datasets die zijn verzameld en opgenomen door een professionele stemacteur en ervaren audio-engineers, specifiek voor de AgentTTS- en CapTTS-SE taken. Naast de datasets voeren we uitgebreide experimenten uit met zowel autoregressieve als niet-autoregressieve modellen op CapSpeech. Onze resultaten tonen hoogwaardige en zeer verstaanbare spraaksynthese aan over een diverse reeks spreekstijlen. Voor zover wij weten, is CapSpeech de grootste beschikbare dataset die uitgebreide annotaties biedt voor CapTTS-gerelateerde taken. De experimenten en bevindingen bieden verder waardevolle inzichten in de uitdagingen bij het ontwikkelen van CapTTS-systemen.
English
Recent advancements in generative artificial intelligence have significantly
transformed the field of style-captioned text-to-speech synthesis (CapTTS).
However, adapting CapTTS to real-world applications remains challenging due to
the lack of standardized, comprehensive datasets and limited research on
downstream tasks built upon CapTTS. To address these gaps, we introduce
CapSpeech, a new benchmark designed for a series of CapTTS-related tasks,
including style-captioned text-to-speech synthesis with sound events
(CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS
(EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech
comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36
million human-annotated audio-caption pairs. In addition, we introduce two new
datasets collected and recorded by a professional voice actor and experienced
audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside
the datasets, we conduct comprehensive experiments using both autoregressive
and non-autoregressive models on CapSpeech. Our results demonstrate
high-fidelity and highly intelligible speech synthesis across a diverse range
of speaking styles. To the best of our knowledge, CapSpeech is the largest
available dataset offering comprehensive annotations for CapTTS-related tasks.
The experiments and findings further provide valuable insights into the
challenges of developing CapTTS systems.