EmergentTTS-Eval: 모델-어스-저지를 활용한 복잡한 운율, 표현성 및 언어적 도전 과제에 대한 TTS 모델 평가
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
May 29, 2025
저자: Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
cs.AI
초록
텍스트-투-스피치(TTS) 벤치마크는 종종 모델이 미묘하고 의미론적으로 복잡한 텍스트를 얼마나 잘 처리하는지 포착하지 못합니다. EmergentTTS를 기반으로, 우리는 감정, 파라링귀스틱스, 외국어, 구문 복잡성, 복잡한 발음(예: URL, 공식), 질문 등 여섯 가지 도전적인 TTS 시나리오를 포괄하는 EmergentTTS-Eval이라는 포괄적인 벤치마크를 소개합니다. 특히, 우리의 프레임워크는 테스트 케이스 생성과 평가를 모두 자동화하여 벤치마크를 쉽게 확장할 수 있도록 합니다. 소수의 인간이 작성한 시드 프롬프트에서 시작하여, LLM을 사용하여 특정 구조적, 음성적, 운율적 도전 과제를 목표로 반복적으로 확장하여 1,645개의 다양한 테스트 케이스를 생성합니다. 또한, 우리는 모델-어스-어-저지 접근법을 사용하여, 대형 오디오 언어 모델(LALM)을 사용하여 표현된 감정, 운율, 억양, 발음 정확성과 같은 여러 차원에서 음성을 평가합니다. 우리는 11Labs, Deepgram, OpenAI의 4o-mini-TTS와 같은 최첨단 오픈소스 및 독점 TTS 시스템을 EmergentTTS-Eval에서 평가하여, 세밀한 성능 차이를 드러내는 능력을 입증합니다. 결과는 모델-어스-어-저지 접근법이 견고한 TTS 평가와 인간 선호도와의 높은 상관 관계를 제공함을 보여줍니다. 우리는 평가 코드(https://github.com/boson-ai/EmergentTTS-Eval-public)와 데이터셋(https://huggingface.co/datasets/bosonai/EmergentTTS-Eval)을 오픈소스로 공개합니다.
English
Text-to-Speech (TTS) benchmarks often fail to capture how well models handle
nuanced and semantically complex text. Building on EmergentTTS, we
introduce EmergentTTS-Eval, a comprehensive benchmark covering six
challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic
complexity, complex pronunciation (e.g. URLs, formulas), and questions.
Crucially, our framework automates both test-case generation and evaluation,
making the benchmark easily extensible. Starting from a small set of
human-written seed prompts, we iteratively extend them using LLMs to target
specific structural, phonetic and prosodic challenges, resulting in 1,645
diverse test cases. Moreover, we employ a model-as-a-judge approach, using a
Large Audio Language Model (LALM) to assess the speech across multiple
dimensions such as expressed emotion, prosodic, intonational, and pronunciation
accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems,
such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval,
demonstrating its ability to reveal fine-grained performance differences.
Results show that the model-as-a-judge approach offers robust TTS assessment
and a high correlation with human preferences. We open source the evaluation
https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the
https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.