EmergentTTS-Eval: Avaliação de Modelos de TTS em Desafios Complexos de Prosódia, Expressividade e Linguística Utilizando Modelo-como-Juiz
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
May 29, 2025
Autores: Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
cs.AI
Resumo
Os benchmarks de Text-to-Speech (TTS) frequentemente falham em capturar quão bem os modelos lidam com textos complexos e semanticamente sutis. Baseando-se no EmergentTTS, introduzimos o EmergentTTS-Eval, um benchmark abrangente que cobre seis cenários desafiadores de TTS: emoções, paralinguística, palavras estrangeiras, complexidade sintática, pronúncia complexa (por exemplo, URLs, fórmulas) e perguntas. Crucialmente, nosso framework automatiza tanto a geração de casos de teste quanto a avaliação, tornando o benchmark facilmente extensível. A partir de um pequeno conjunto de prompts iniciais escritos por humanos, nós os estendemos iterativamente usando LLMs para direcionar desafios estruturais, fonéticos e prosódicos específicos, resultando em 1.645 casos de teste diversos. Além disso, empregamos uma abordagem de modelo-como-juiz, utilizando um Large Audio Language Model (LALM) para avaliar a fala em múltiplas dimensões, como emoção expressa, precisão prosódica, entonação e pronúncia. Avaliamos sistemas de TTS de última geração, tanto de código aberto quanto proprietários, como 11Labs, Deepgram e o 4o-mini-TTS da OpenAI, no EmergentTTS-Eval, demonstrando sua capacidade de revelar diferenças de desempenho em nível granular. Os resultados mostram que a abordagem de modelo-como-juiz oferece uma avaliação robusta de TTS e uma alta correlação com as preferências humanas. Disponibilizamos o código de avaliação em https://github.com/boson-ai/EmergentTTS-Eval-public e o conjunto de dados em https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
English
Text-to-Speech (TTS) benchmarks often fail to capture how well models handle
nuanced and semantically complex text. Building on EmergentTTS, we
introduce EmergentTTS-Eval, a comprehensive benchmark covering six
challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic
complexity, complex pronunciation (e.g. URLs, formulas), and questions.
Crucially, our framework automates both test-case generation and evaluation,
making the benchmark easily extensible. Starting from a small set of
human-written seed prompts, we iteratively extend them using LLMs to target
specific structural, phonetic and prosodic challenges, resulting in 1,645
diverse test cases. Moreover, we employ a model-as-a-judge approach, using a
Large Audio Language Model (LALM) to assess the speech across multiple
dimensions such as expressed emotion, prosodic, intonational, and pronunciation
accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems,
such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval,
demonstrating its ability to reveal fine-grained performance differences.
Results show that the model-as-a-judge approach offers robust TTS assessment
and a high correlation with human preferences. We open source the evaluation
https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the
https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.