Всесторонний бенчмаркинг генерации длинной речи в разнообразных сценариях

Аннотация

Недавние достижения в области синтеза речи позволили добиться высококачественного воспроизведения, однако систематическая оценка моделей в условиях длинного контекста остается в значительной степени неизученной. Комплексный оценочный бенчмарк для протяженной речи необходим по двум причинам: 1) существующие тестовые сценарии часто ограничены узкими областями, что создает значительный разрыв с разнообразными прикладными задачами; 2) существующие метрики упускают из виду важные для длинных текстов факторы, такие как согласованность и когерентность, и не обеспечивают надежного обобщения. С этой целью мы предлагаем Swanbench-Speech — всеобъемлющий бенчмарк, который декомпозирует качество протяженной речи на отдельные, независимые измеримые аспекты. SwanBench-Speech обладает тремя ключевыми свойствами: 1) богатые речевые сценарии: фокусируясь на генерации протяженной речи и диалогов, SwanBench-Speech охватывает задачи акустики, семантики и выразительности и включает 1101 образец, относящийся к 17 распространенным речевым сценариям; 2) всесторонние оценочные измерения: по осям акустики, семантики и выразительности SwanBench-Speech определяет протокол автоматической оценки с семью метриками для комплексной, точной и стандартизированной оценки; 3) ценные выводы: посредством обширных экспериментов мы выявляем, что современные модели все еще испытывают трудности в высокоэкспрессивных сценариях и демонстрируют заметный разрыв в согласованности и иерархичности по сравнению с реальными записями.

English

Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.