ChatPaper.aiChatPaper

EmergentTTS-Eval: Оценка моделей синтеза речи на сложные задачи в области просодии, выразительности и лингвистики с использованием подхода "Модель как судья"

EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

May 29, 2025
Авторы: Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
cs.AI

Аннотация

Бенчмарки для систем синтеза речи (Text-to-Speech, TTS) часто не учитывают, насколько хорошо модели справляются с нюансированными и семантически сложными текстами. Развивая подход EmergentTTS, мы представляем EmergentTTS-Eval — комплексный бенчмарк, охватывающий шесть сложных сценариев TTS: эмоции, паралингвистику, иностранные слова, синтаксическую сложность, сложное произношение (например, URL-адреса, формулы) и вопросы. Ключевым аспектом нашей системы является автоматизация как генерации тестовых случаев, так и их оценки, что делает бенчмарк легко расширяемым. Начиная с небольшого набора начальных запросов, написанных людьми, мы итеративно расширяем их с использованием языковых моделей (LLM), чтобы охватить специфические структурные, фонетические и просодические задачи, в результате чего получаем 1 645 разнообразных тестовых случаев. Кроме того, мы применяем подход «модель как судья», используя крупную аудиоязыковую модель (Large Audio Language Model, LALM) для оценки речи по нескольким параметрам, таким как выражение эмоций, просодия, интонация и точность произношения. Мы тестируем современные открытые и проприетарные системы TTS, такие как 11Labs, Deepgram и OpenAI 4o-mini-TTS, на EmergentTTS-Eval, демонстрируя его способность выявлять тонкие различия в производительности. Результаты показывают, что подход «модель как судья» обеспечивает надежную оценку TTS и высокую корреляцию с предпочтениями людей. Мы открываем исходный код оценки https://github.com/boson-ai/EmergentTTS-Eval-public{код} и набор данных https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{датасет}.
English
Text-to-Speech (TTS) benchmarks often fail to capture how well models handle nuanced and semantically complex text. Building on EmergentTTS, we introduce EmergentTTS-Eval, a comprehensive benchmark covering six challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic complexity, complex pronunciation (e.g. URLs, formulas), and questions. Crucially, our framework automates both test-case generation and evaluation, making the benchmark easily extensible. Starting from a small set of human-written seed prompts, we iteratively extend them using LLMs to target specific structural, phonetic and prosodic challenges, resulting in 1,645 diverse test cases. Moreover, we employ a model-as-a-judge approach, using a Large Audio Language Model (LALM) to assess the speech across multiple dimensions such as expressed emotion, prosodic, intonational, and pronunciation accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems, such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval, demonstrating its ability to reveal fine-grained performance differences. Results show that the model-as-a-judge approach offers robust TTS assessment and a high correlation with human preferences. We open source the evaluation https://github.com/boson-ai/EmergentTTS-Eval-public{code} and the https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}.
PDF172June 2, 2025