EmergentTTS-Eval: Bewertung von TTS-Modellen anhand komplexer prosodischer, expressiver und linguistischer Herausforderungen mithilfe von Model-as-a-Judge
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
May 29, 2025
Autoren: Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
cs.AI
Zusammenfassung
Text-to-Speech (TTS)-Benchmarks erfassen oft nicht, wie gut Modelle mit nuanziertem und semantisch komplexem Text umgehen. Aufbauend auf EmergentTTS führen wir EmergentTTS-Eval ein, einen umfassenden Benchmark, der sechs anspruchsvolle TTS-Szenarien abdeckt: Emotionen, Paralinguistik, Fremdwörter, syntaktische Komplexität, komplexe Aussprache (z. B. URLs, Formeln) und Fragen. Entscheidend ist, dass unser Framework sowohl die Generierung von Testfällen als auch die Bewertung automatisiert, wodurch der Benchmark leicht erweiterbar ist. Ausgehend von einer kleinen Menge menschlich verfasster Seed-Prompts erweitern wir diese iterativ mithilfe von LLMs, um spezifische strukturelle, phonetische und prosodische Herausforderungen zu adressieren, was zu 1.645 diversen Testfällen führt. Darüber hinaus verwenden wir einen Model-as-a-Judge-Ansatz, bei dem ein Large Audio Language Model (LALM) eingesetzt wird, um die Sprache in mehreren Dimensionen zu bewerten, wie z. B. ausgedrückte Emotion, Prosodie, Intonation und Aussprachegenauigkeit. Wir evaluieren state-of-the-art Open-Source- und proprietäre TTS-Systeme wie 11Labs, Deepgram und OpenAIs 4o-mini-TTS auf EmergentTTS-Eval und zeigen, dass der Benchmark feinkörnige Leistungsunterschiede aufdecken kann. Die Ergebnisse zeigen, dass der Model-as-a-Judge-Ansatz eine robuste TTS-Bewertung bietet und eine hohe Korrelation mit menschlichen Präferenzen aufweist. Wir stellen den Evaluierungscode https://github.com/boson-ai/EmergentTTS-Eval-public und das Dataset https://huggingface.co/datasets/bosonai/EmergentTTS-Eval als Open Source zur Verfügung.
English
Text-to-Speech (TTS) benchmarks often fail to capture how well models handle
nuanced and semantically complex text. Building on EmergentTTS, we
introduce EmergentTTS-Eval, a comprehensive benchmark covering six
challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic
complexity, complex pronunciation (e.g. URLs, formulas), and questions.
Crucially, our framework automates both test-case generation and evaluation,
making the benchmark easily extensible. Starting from a small set of
human-written seed prompts, we iteratively extend them using LLMs to target
specific structural, phonetic and prosodic challenges, resulting in 1,645
diverse test cases. Moreover, we employ a model-as-a-judge approach, using a
Large Audio Language Model (LALM) to assess the speech across multiple
dimensions such as expressed emotion, prosodic, intonational, and pronunciation
accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems,
such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval,
demonstrating its ability to reveal fine-grained performance differences.
Results show that the model-as-a-judge approach offers robust TTS assessment
and a high correlation with human preferences. We open source the evaluation
https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the
https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.