Benchmarking Abrangente da Geração de Fala de Longa Duração em Cenários Diversos

Resumo

Avanços recentes na geração de fala possibilitaram a síntese de alta fidelidade, porém a avaliação sistemática de modelos sob condições de contexto longo permanece amplamente inexplorada. Um benchmark de avaliação abrangente para fala longa é indispensável por duas razões: 1) os cenários de teste existentes são frequentemente restritos a domínios limitados, criando uma lacuna significativa com as diversas aplicações subsequentes; 2) as métricas existentes ignoram fatores críticos de texto longo, como consistência e coerência, falhando em generalizar de forma confiável. Para tal, propomos o Swanbench-Speech, um benchmark abrangente que decompõe a qualidade da fala longa em dimensões específicas e desentrelaçadas. O SwanBench-Speech possui três propriedades-chave: 1) Cenários de fala ricos: Focando na geração de fala longa e geração de diálogo, o SwanBench-Speech abrange desafios de acústica, semântica e expressividade, consistindo em 1.101 amostras que cobrem 17 cenários comuns de fala; 2) Dimensões de avaliação abrangentes: Ao longo dos eixos acústico, semântico e expressivo, o SwanBench-Speech define um protocolo de avaliação automatizada com sete métricas para fornecer uma avaliação abrangente, precisa e padronizada; 3) Percepções valiosas: Por meio de experimentos extensos, revelamos que os modelos atuais ainda enfrentam dificuldades em cenários altamente expressivos e apresentam uma lacuna notável em consistência e hierarquia em comparação com gravações reais.

English

Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.