Umfassendes Benchmarking der Langform-Sprachgenerierung in verschiedenen Szenarien

Zusammenfassung

Jüngste Fortschritte in der Sprachgenerierung haben eine hochgetreue Synthese ermöglicht, jedoch bleibt die systematische Evaluierung von Modellen unter Langzeitkontextbedingungen weitgehend unerforscht. Ein umfassender Evaluierungs-Benchmark für Langzeit-Sprache ist aus zwei Gründen unerlässlich: 1) bestehende Testszenarien beschränken sich oft auf begrenzte Domänen, was eine erhebliche Lücke zu den vielfältigen nachgelagerten Anwendungen schafft; 2) bestehende Metriken übersehen kritische Faktoren langer Texte wie Konsistenz und Kohärenz und lassen sich nicht zuverlässig verallgemeinern. Zu diesem Zweck schlagen wir Swanbench-Speech vor, einen umfassenden Benchmark, der die Qualität von Langzeit-Sprache in spezifische, entkoppelte Dimensionen zerlegt. SwanBench-Speech weist drei Schlüsseleigenschaften auf: 1) Reichhaltige Sprachszenarien: Mit Fokus auf Langzeit-Sprachgenerierung und Dialoggenerierung deckt SwanBench-Speech Herausforderungen in Akustik, Semantik und Ausdruckskraft ab und umfasst 1.101 Stichproben aus 17 gängigen Sprachszenarien; 2) Umfassende Evaluierungsdimensionen: Entlang der Achsen Akustik, Semantik und Ausdruckskraft definiert SwanBench-Speech ein automatisiertes Evaluierungsprotokoll mit sieben Metriken, das eine umfassende, genaue und standardisierte Bewertung ermöglicht; 3) Wertvolle Erkenntnisse: Durch umfangreiche Experimente zeigen wir, dass aktuelle Modelle in stark ausdrucksstarken Szenarien weiterhin Schwierigkeiten haben und im Vergleich zu echten Aufnahmen eine deutliche Lücke in Konsistenz und Hierarchie aufweisen.

English

Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.