Benchmarking Exhaustivo de la Generación de Voz de Formato Largo en Escenarios Diversos

Resumen

Avances recientes en la generación de voz han permitido una síntesis de alta fidelidad, pero la evaluación sistemática de modelos en condiciones de contexto largo sigue siendo en gran medida inexplorada. Un punto de referencia integral para la evaluación de voz de formato largo es indispensable por dos razones: 1) los escenarios de prueba existentes suelen limitarse a dominios restringidos, lo que crea una brecha significativa con las diversas aplicaciones posteriores; 2) las métricas existentes pasan por alto factores clave de textos largos como la consistencia y la coherencia, fallando en generalizar de manera fiable. Con este fin, proponemos SwanBench-Speech, un punto de referencia integral que descompone la calidad de la voz de formato largo en dimensiones específicas y desentrelazadas. SwanBench-Speech posee tres propiedades clave: 1) Escenarios de voz ricos: Centrándose en la generación de voz de formato largo y la generación de diálogos, SwanBench-Speech abarca desafíos de acústica, semántica y expresividad, y consta de 1.101 muestras que cubren 17 escenarios comunes de voz; 2) Dimensiones de evaluación integrales: A lo largo de los ejes de acústica, semántica y expresividad, SwanBench-Speech define un protocolo de evaluación automatizado con siete métricas para proporcionar una evaluación integral, precisa y estandarizada; 3) Perspectivas valiosas: A través de experimentos exhaustivos, revelamos que los modelos actuales aún tienen dificultades en escenarios altamente expresivos y presentan una brecha notable en consistencia y jerarquía en comparación con las grabaciones reales.

English

Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.