ChatPaper.aiChatPaper

CapSpeech: 스타일 캡션 텍스트-음성 변환에서의 다운스트림 애플리케이션 활성화

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

June 3, 2025
저자: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
cs.AI

초록

최근 생성형 인공지능의 발전은 스타일 캡션 텍스트-음성 합성(CapTTS) 분야에 상당한 변화를 가져왔다. 그러나 CapTTS를 실제 응용 분야에 적용하는 것은 표준화된 포괄적인 데이터셋의 부족과 CapTTS를 기반으로 한 다운스트림 작업에 대한 연구가 제한적이라는 점에서 여전히 어려운 과제로 남아 있다. 이러한 격차를 해소하기 위해, 우리는 CapSpeech라는 새로운 벤치마크를 소개한다. CapSpeech는 사운드 이벤트가 포함된 스타일 캡션 텍스트-음성 합성(CapTTS-SE), 액센트 캡션 TTS(AccCapTTS), 감정 캡션 TTS(EmoCapTTS), 그리고 채팅 에이전트를 위한 텍스트-음성 합성(AgentTTS) 등 일련의 CapTTS 관련 작업을 위해 설계되었다. CapSpeech는 1천만 개 이상의 기계 주석 오디오-캡션 쌍과 약 36만 개의 인간 주석 오디오-캡션 쌍으로 구성되어 있다. 또한, 우리는 AgentTTS 및 CapTTS-SE 작업을 위해 전문 성우와 경험 많은 오디오 엔지니어가 수집 및 녹음한 두 가지 새로운 데이터셋을 소개한다. 데이터셋과 함께, 우리는 CapSpeech에서 자기회귀 모델과 비자기회귀 모델을 사용한 포괄적인 실험을 수행한다. 우리의 결과는 다양한 말하기 스타일에서 고충실도와 높은 명료성을 보여준다. 우리가 아는 한, CapSpeech는 CapTTS 관련 작업을 위한 포괄적인 주석을 제공하는 가장 큰 데이터셋이다. 실험과 연구 결과는 CapTTS 시스템 개발의 과제에 대한 귀중한 통찰력을 제공한다.
English
Recent advancements in generative artificial intelligence have significantly transformed the field of style-captioned text-to-speech synthesis (CapTTS). However, adapting CapTTS to real-world applications remains challenging due to the lack of standardized, comprehensive datasets and limited research on downstream tasks built upon CapTTS. To address these gaps, we introduce CapSpeech, a new benchmark designed for a series of CapTTS-related tasks, including style-captioned text-to-speech synthesis with sound events (CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS (EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36 million human-annotated audio-caption pairs. In addition, we introduce two new datasets collected and recorded by a professional voice actor and experienced audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside the datasets, we conduct comprehensive experiments using both autoregressive and non-autoregressive models on CapSpeech. Our results demonstrate high-fidelity and highly intelligible speech synthesis across a diverse range of speaking styles. To the best of our knowledge, CapSpeech is the largest available dataset offering comprehensive annotations for CapTTS-related tasks. The experiments and findings further provide valuable insights into the challenges of developing CapTTS systems.
PDF63June 5, 2025