EmergentTTS-Eval : Évaluation des modèles de synthèse vocale sur les défis complexes de prosodie, d'expressivité et de linguistique en utilisant une approche Model-as-a-Judge
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
May 29, 2025
papers.authors: Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
cs.AI
papers.abstract
Les benchmarks de synthèse vocale (Text-to-Speech, TTS) échouent souvent à évaluer la capacité des modèles à gérer des textes nuancés et sémantiquement complexes. En nous appuyant sur EmergentTTS, nous introduisons EmergentTTS-Eval, un benchmark complet couvrant six scénarios TTS exigeants : les émotions, les aspects paralinguistiques, les mots étrangers, la complexité syntaxique, la prononciation complexe (par exemple, les URL, les formules) et les questions. De manière cruciale, notre framework automatise à la fois la génération des cas de test et leur évaluation, rendant le benchmark facilement extensible. À partir d'un petit ensemble de prompts écrits par des humains, nous les étendons itérativement en utilisant des modèles de langage (LLMs) pour cibler des défis structurels, phonétiques et prosodiques spécifiques, aboutissant à 1 645 cas de test diversifiés. De plus, nous employons une approche de modèle-comme-juge, utilisant un Large Audio Language Model (LALM) pour évaluer la parole selon plusieurs dimensions telles que l'émotion exprimée, la prosodie, l'intonation et la précision de la prononciation. Nous évaluons les systèmes TTS open-source et propriétaires de pointe, tels que 11Labs, Deepgram et le 4o-mini-TTS d'OpenAI, sur EmergentTTS-Eval, démontrant sa capacité à révéler des différences de performance fines. Les résultats montrent que l'approche modèle-comme-juge offre une évaluation robuste des systèmes TTS et une forte corrélation avec les préférences humaines. Nous rendons publics le code d'évaluation https://github.com/boson-ai/EmergentTTS-Eval-public et le jeu de données https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
English
Text-to-Speech (TTS) benchmarks often fail to capture how well models handle
nuanced and semantically complex text. Building on EmergentTTS, we
introduce EmergentTTS-Eval, a comprehensive benchmark covering six
challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic
complexity, complex pronunciation (e.g. URLs, formulas), and questions.
Crucially, our framework automates both test-case generation and evaluation,
making the benchmark easily extensible. Starting from a small set of
human-written seed prompts, we iteratively extend them using LLMs to target
specific structural, phonetic and prosodic challenges, resulting in 1,645
diverse test cases. Moreover, we employ a model-as-a-judge approach, using a
Large Audio Language Model (LALM) to assess the speech across multiple
dimensions such as expressed emotion, prosodic, intonational, and pronunciation
accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems,
such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval,
demonstrating its ability to reveal fine-grained performance differences.
Results show that the model-as-a-judge approach offers robust TTS assessment
and a high correlation with human preferences. We open source the evaluation
https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the
https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.