EmergentTTS-Eval: Avaliação de Modelos de TTS em Desafios Complexos de Prosódia, Expressividade e Linguística Utilizando Modelo-como-Juiz

Resumo

Os benchmarks de Text-to-Speech (TTS) frequentemente falham em capturar quão bem os modelos lidam com textos complexos e semanticamente sutis. Baseando-se no EmergentTTS, introduzimos o EmergentTTS-Eval, um benchmark abrangente que cobre seis cenários desafiadores de TTS: emoções, paralinguística, palavras estrangeiras, complexidade sintática, pronúncia complexa (por exemplo, URLs, fórmulas) e perguntas. Crucialmente, nosso framework automatiza tanto a geração de casos de teste quanto a avaliação, tornando o benchmark facilmente extensível. A partir de um pequeno conjunto de prompts iniciais escritos por humanos, nós os estendemos iterativamente usando LLMs para direcionar desafios estruturais, fonéticos e prosódicos específicos, resultando em 1.645 casos de teste diversos. Além disso, empregamos uma abordagem de modelo-como-juiz, utilizando um Large Audio Language Model (LALM) para avaliar a fala em múltiplas dimensões, como emoção expressa, precisão prosódica, entonação e pronúncia. Avaliamos sistemas de TTS de última geração, tanto de código aberto quanto proprietários, como 11Labs, Deepgram e o 4o-mini-TTS da OpenAI, no EmergentTTS-Eval, demonstrando sua capacidade de revelar diferenças de desempenho em nível granular. Os resultados mostram que a abordagem de modelo-como-juiz oferece uma avaliação robusta de TTS e uma alta correlação com as preferências humanas. Disponibilizamos o código de avaliação em https://github.com/boson-ai/EmergentTTS-Eval-public e o conjunto de dados em https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.

English

Text-to-Speech (TTS) benchmarks often fail to capture how well models handle nuanced and semantically complex text. Building on EmergentTTS, we introduce EmergentTTS-Eval, a comprehensive benchmark covering six challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic complexity, complex pronunciation (e.g. URLs, formulas), and questions. Crucially, our framework automates both test-case generation and evaluation, making the benchmark easily extensible. Starting from a small set of human-written seed prompts, we iteratively extend them using LLMs to target specific structural, phonetic and prosodic challenges, resulting in 1,645 diverse test cases. Moreover, we employ a model-as-a-judge approach, using a Large Audio Language Model (LALM) to assess the speech across multiple dimensions such as expressed emotion, prosodic, intonational, and pronunciation accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems, such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval, demonstrating its ability to reveal fine-grained performance differences. Results show that the model-as-a-judge approach offers robust TTS assessment and a high correlation with human preferences. We open source the evaluation https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.

EmergentTTS-Eval: Avaliação de Modelos de TTS em Desafios Complexos de Prosódia, Expressividade e Linguística Utilizando Modelo-como-Juiz

EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

Resumo

Support