EmergentTTS-Eval: Evaluación de Modelos de TTS en Desafíos Complejos de Prosodia, Expresividad y Lingüística Utilizando Modelo-como-Juez
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
May 29, 2025
Autores: Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
cs.AI
Resumen
Los puntos de referencia de Text-to-Speech (TTS) a menudo no logran capturar qué tan bien los modelos manejan textos matizados y semánticamente complejos. Basándonos en EmergentTTS, presentamos EmergentTTS-Eval, un punto de referencia integral que cubre seis escenarios desafiantes de TTS: emociones, paralingüística, palabras extranjeras, complejidad sintáctica, pronunciación compleja (por ejemplo, URLs, fórmulas) y preguntas. Es crucial destacar que nuestro marco automatiza tanto la generación de casos de prueba como la evaluación, lo que hace que el punto de referencia sea fácilmente extensible. Partiendo de un pequeño conjunto de indicaciones escritas por humanos, las extendemos iterativamente utilizando LLMs para abordar desafíos específicos estructurales, fonéticos y prosódicos, resultando en 1,645 casos de prueba diversos. Además, empleamos un enfoque de modelo-como-juez, utilizando un Large Audio Language Model (LALM) para evaluar el habla en múltiples dimensiones, como la emoción expresada, la prosodia, la entonación y la precisión en la pronunciación. Evaluamos sistemas TTS de última generación, tanto de código abierto como propietarios, como 11Labs, Deepgram y el 4o-mini-TTS de OpenAI, en EmergentTTS-Eval, demostrando su capacidad para revelar diferencias de rendimiento detalladas. Los resultados muestran que el enfoque de modelo-como-juez ofrece una evaluación robusta de TTS y una alta correlación con las preferencias humanas. Hacemos público el código de evaluación en https://github.com/boson-ai/EmergentTTS-Eval-public y el conjunto de datos en https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
English
Text-to-Speech (TTS) benchmarks often fail to capture how well models handle
nuanced and semantically complex text. Building on EmergentTTS, we
introduce EmergentTTS-Eval, a comprehensive benchmark covering six
challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic
complexity, complex pronunciation (e.g. URLs, formulas), and questions.
Crucially, our framework automates both test-case generation and evaluation,
making the benchmark easily extensible. Starting from a small set of
human-written seed prompts, we iteratively extend them using LLMs to target
specific structural, phonetic and prosodic challenges, resulting in 1,645
diverse test cases. Moreover, we employ a model-as-a-judge approach, using a
Large Audio Language Model (LALM) to assess the speech across multiple
dimensions such as expressed emotion, prosodic, intonational, and pronunciation
accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems,
such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval,
demonstrating its ability to reveal fine-grained performance differences.
Results show that the model-as-a-judge approach offers robust TTS assessment
and a high correlation with human preferences. We open source the evaluation
https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the
https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.