EmergentTTS-Eval: Evaluación de Modelos de TTS en Desafíos Complejos de Prosodia, Expresividad y Lingüística Utilizando Modelo-como-Juez

Resumen

Los puntos de referencia de Text-to-Speech (TTS) a menudo no logran capturar qué tan bien los modelos manejan textos matizados y semánticamente complejos. Basándonos en EmergentTTS, presentamos EmergentTTS-Eval, un punto de referencia integral que cubre seis escenarios desafiantes de TTS: emociones, paralingüística, palabras extranjeras, complejidad sintáctica, pronunciación compleja (por ejemplo, URLs, fórmulas) y preguntas. Es crucial destacar que nuestro marco automatiza tanto la generación de casos de prueba como la evaluación, lo que hace que el punto de referencia sea fácilmente extensible. Partiendo de un pequeño conjunto de indicaciones escritas por humanos, las extendemos iterativamente utilizando LLMs para abordar desafíos específicos estructurales, fonéticos y prosódicos, resultando en 1,645 casos de prueba diversos. Además, empleamos un enfoque de modelo-como-juez, utilizando un Large Audio Language Model (LALM) para evaluar el habla en múltiples dimensiones, como la emoción expresada, la prosodia, la entonación y la precisión en la pronunciación. Evaluamos sistemas TTS de última generación, tanto de código abierto como propietarios, como 11Labs, Deepgram y el 4o-mini-TTS de OpenAI, en EmergentTTS-Eval, demostrando su capacidad para revelar diferencias de rendimiento detalladas. Los resultados muestran que el enfoque de modelo-como-juez ofrece una evaluación robusta de TTS y una alta correlación con las preferencias humanas. Hacemos público el código de evaluación en https://github.com/boson-ai/EmergentTTS-Eval-public y el conjunto de datos en https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.

English

Text-to-Speech (TTS) benchmarks often fail to capture how well models handle nuanced and semantically complex text. Building on EmergentTTS, we introduce EmergentTTS-Eval, a comprehensive benchmark covering six challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic complexity, complex pronunciation (e.g. URLs, formulas), and questions. Crucially, our framework automates both test-case generation and evaluation, making the benchmark easily extensible. Starting from a small set of human-written seed prompts, we iteratively extend them using LLMs to target specific structural, phonetic and prosodic challenges, resulting in 1,645 diverse test cases. Moreover, we employ a model-as-a-judge approach, using a Large Audio Language Model (LALM) to assess the speech across multiple dimensions such as expressed emotion, prosodic, intonational, and pronunciation accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems, such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval, demonstrating its ability to reveal fine-grained performance differences. Results show that the model-as-a-judge approach offers robust TTS assessment and a high correlation with human preferences. We open source the evaluation https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.

EmergentTTS-Eval: Evaluación de Modelos de TTS en Desafíos Complejos de Prosodia, Expresividad y Lingüística Utilizando Modelo-como-Juez

EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

Resumen

Support