Uitgebreide benchmarking van lange spraakgeneratie in diverse scenario's

Samenvatting

Recente ontwikkelingen in spraakgeneratie hebben synthese met hoge getrouwheid mogelijk gemaakt, maar systematische evaluatie van modellen onder lange-contextcondities blijft grotendeels onderbelicht. Een uitgebreide evaluatiebenchmark voor lange spraak is onmisbaar om twee redenen: 1) bestaande testscenario's zijn vaak beperkt tot enkele domeinen, wat een aanzienlijke kloof creëert met de diverse downstream-toepassingen; 2) bestaande metrieken negeren cruciale lange-tekstfactoren zoals consistentie en coherentie, waardoor ze niet betrouwbaar kunnen generaliseren. Daartoe stellen we SwanBench-Speech voor, een uitgebreide benchmark die de kwaliteit van lange spraak opsplitst in specifieke, ontwarde dimensies. SwanBench-Speech heeft drie belangrijke eigenschappen. 1) Rijke spraakscenario's: Gericht op het genereren van lange spraak en dialooggeneratie, dekt SwanBench-Speech uitdagingen op het gebied van akoestiek, semantiek en expressiviteit, en bestaat uit 1.101 samples verspreid over 17 veelvoorkomende spraakscenario's; 2) Uitgebreide evaluatiedimensies: Langs de assen van akoestiek, semantiek en expressiviteit definieert SwanBench-Speech een geautomatiseerd evaluatieprotocol met zeven metrieken om een uitgebreide, accurate en gestandaardiseerde beoordeling te bieden; 3) Waardevolle inzichten: Door uitgebreide experimenten laten we zien dat huidige modellen nog steeds moeite hebben met zeer expressieve scenario's en een opmerkelijke kloof vertonen in consistentie en hiërarchie vergeleken met echte opnames.

English

Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.