ChatPaper.aiChatPaper

Всесторонний бенчмаркинг генерации длинной речи в разнообразных сценариях

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

May 27, 2026
Авторы: Changhao Pan, Rui Yang, Han Wang, Zhuan Zhou, Xuming He, Wenxiang Guo, Ziyue Jiang, Ruiqi Li, Yu Zhang, Chenyuhao Wen, Ke Lei, Xiang Yin, Jingyu Lu, Zhiyuan Zhu, Zhou Zhao
cs.AI

Аннотация

Недавние достижения в области синтеза речи позволили добиться высококачественного воспроизведения, однако систематическая оценка моделей в условиях длинного контекста остается в значительной степени неизученной. Комплексный оценочный бенчмарк для протяженной речи необходим по двум причинам: 1) существующие тестовые сценарии часто ограничены узкими областями, что создает значительный разрыв с разнообразными прикладными задачами; 2) существующие метрики упускают из виду важные для длинных текстов факторы, такие как согласованность и когерентность, и не обеспечивают надежного обобщения. С этой целью мы предлагаем Swanbench-Speech — всеобъемлющий бенчмарк, который декомпозирует качество протяженной речи на отдельные, независимые измеримые аспекты. SwanBench-Speech обладает тремя ключевыми свойствами: 1) богатые речевые сценарии: фокусируясь на генерации протяженной речи и диалогов, SwanBench-Speech охватывает задачи акустики, семантики и выразительности и включает 1101 образец, относящийся к 17 распространенным речевым сценариям; 2) всесторонние оценочные измерения: по осям акустики, семантики и выразительности SwanBench-Speech определяет протокол автоматической оценки с семью метриками для комплексной, точной и стандартизированной оценки; 3) ценные выводы: посредством обширных экспериментов мы выявляем, что современные модели все еще испытывают трудности в высокоэкспрессивных сценариях и демонстрируют заметный разрыв в согласованности и иерархичности по сравнению с реальными записями.
English
Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.