MTR-DuplexBench: К всесторонней оценке многотуровых диалогов в полнодуплексных речевых языковых моделях
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
April 17, 2026
Авторы: He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King
cs.AI
Аннотация
Полнодуплексные речевые языковые модели (FD-SLMs) обеспечивают взаимодействие в реальном времени с перекрывающейся речью, предлагая более динамичный пользовательский опыт по сравнению с традиционными полудуплексными моделями. Однако существующие бенчмарки в основном сосредоточены на оценке одиночных раундов взаимодействия, игнорируя сложности многораундовой коммуникации. Оценка FD-SLMs в многораундовых сценариях сопряжена со значительными трудностями, включая размытые границы реплик в коммуникации и несогласованность контекста во время вывода модели. Кроме того, существующие бенчмарки часто фокусируются исключительно на оценке диалоговых характеристик, упуская другие важные аспекты. Для устранения этих пробелов мы представляем MTR-DuplexBench — новый бенчмарк, разработанный для комплексной многораундовой оценки FD-SLMs. MTR-DuplexBench не только сегментирует непрерывные полнодуплексные диалоги на отдельные реплики для пошаговой оценки, но и включает различные аспекты анализа, такие как диалоговые характеристики, качество диалога, следование инструкциям и безопасность. Результаты экспериментов показывают, что современные FD-SLMs испытывают трудности с поддержанием стабильной производительности в течение множества раундов и по различным оценочным измерениям, что подчеркивает необходимость и эффективность нашего бенчмарка. Код и данные доступны по адресу: https://github.com/ZhangHe0918/MTR-DuplexBench
English
Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench