Analyse comparative exhaustive de la génération de parole longue dans des scénarios diversifiés

Résumé

Les récents progrès en synthèse vocale ont permis une génération de haute fidélité, mais l'évaluation systématique des modèles dans des conditions de long contexte reste largement sous-explorée. Un benchmark d'évaluation complet pour la parole longue est indispensable pour deux raisons : 1) les scénarios de test existants sont souvent confinés à des domaines limités, créant un fossé important avec les applications aval diverses ; 2) les métriques existantes négligent des facteurs cruciaux liés aux textes longs, tels que la cohérence et la cohésion, et ne parviennent pas à généraliser de manière fiable. À cette fin, nous proposons SwanBench-Speech, un benchmark complet qui décompose la qualité de la parole longue en dimensions spécifiques et désentrelacées. SwanBench-Speech possède trois propriétés clés. 1) Des scénarios de parole riches : En se concentrant sur la génération de parole longue et la génération de dialogues, SwanBench-Speech couvre les défis de l'acoustique, de la sémantique et de l'expressivité, et se compose de 1 101 échantillons couvrant 17 scénarios de parole courants ; 2) Des dimensions d'évaluation complètes : Le long des axes de l'acoustique, de la sémantique et de l'expressivité, SwanBench-Speech définit un protocole d'évaluation automatisé avec sept métriques pour fournir une évaluation complète, précise et standardisée ; 3) Des perspectives précieuses : À travers des expériences approfondies, nous révélons que les modèles actuels rencontrent encore des difficultés dans les scénarios hautement expressifs et présentent un écart notable en termes de cohérence et de hiérarchie par rapport aux enregistrements réels.

English

Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.