ChatPaper.aiChatPaper

Benchmarking Abrangente da Geração de Fala de Longa Duração em Cenários Diversos

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

May 27, 2026
Autores: Changhao Pan, Rui Yang, Han Wang, Zhuan Zhou, Xuming He, Wenxiang Guo, Ziyue Jiang, Ruiqi Li, Yu Zhang, Chenyuhao Wen, Ke Lei, Xiang Yin, Jingyu Lu, Zhiyuan Zhu, Zhou Zhao
cs.AI

Resumo

Avanços recentes na geração de fala possibilitaram a síntese de alta fidelidade, porém a avaliação sistemática de modelos sob condições de contexto longo permanece amplamente inexplorada. Um benchmark de avaliação abrangente para fala longa é indispensável por duas razões: 1) os cenários de teste existentes são frequentemente restritos a domínios limitados, criando uma lacuna significativa com as diversas aplicações subsequentes; 2) as métricas existentes ignoram fatores críticos de texto longo, como consistência e coerência, falhando em generalizar de forma confiável. Para tal, propomos o Swanbench-Speech, um benchmark abrangente que decompõe a qualidade da fala longa em dimensões específicas e desentrelaçadas. O SwanBench-Speech possui três propriedades-chave: 1) Cenários de fala ricos: Focando na geração de fala longa e geração de diálogo, o SwanBench-Speech abrange desafios de acústica, semântica e expressividade, consistindo em 1.101 amostras que cobrem 17 cenários comuns de fala; 2) Dimensões de avaliação abrangentes: Ao longo dos eixos acústico, semântico e expressivo, o SwanBench-Speech define um protocolo de avaliação automatizada com sete métricas para fornecer uma avaliação abrangente, precisa e padronizada; 3) Percepções valiosas: Por meio de experimentos extensos, revelamos que os modelos atuais ainda enfrentam dificuldades em cenários altamente expressivos e apresentam uma lacuna notável em consistência e hierarquia em comparação com gravações reais.
English
Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.