ChatPaper.aiChatPaper

MTR-DuplexBench : Vers une évaluation complète des conversations multi-tours pour les modèles de langage vocal en duplex intégral

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

April 17, 2026
Auteurs: He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King
cs.AI

Résumé

Les modèles de langage vocal en duplex intégral (FD-SLMs) permettent des interactions conversationnelles en temps réel avec chevauchement, offrant une expérience utilisateur plus dynamique que les modèles semi-duplex traditionnels. Cependant, les benchmarks existants se concentrent principalement sur l'évaluation d'interactions à tour unique, négligeant les complexités de la communication multi-tours. L'évaluation des FD-SLMs dans des contextes multi-tours pose des défis significatifs, incluant des limites de tour floues dans la communication et des incohérences contextuelles durant l'inférence du modèle. De plus, les benchmarks existants se focalisent souvent uniquement sur les fonctionnalités conversationnelles, négligeant d'autres aspects critiques. Pour combler ces lacunes, nous présentons MTR-DuplexBench, un nouveau benchmark conçu pour une évaluation multi-tours complète des FD-SLMs. MTR-DuplexBench segmente non seulement les dialogues continus en duplex intégral en tours discrets pour une évaluation tour par tour, mais intègre également divers aspects d'évaluation, incluant les fonctionnalités conversationnelles, la qualité du dialogue, le suivi des instructions et la sécurité. Les résultats expérimentaux révèlent que les FD-SLMs actuels éprouvent des difficultés à maintenir des performances cohérentes sur plusieurs tours et dimensions d'évaluation, soulignant la nécessité et l'efficacité de notre benchmark. Le code et les données sont disponibles à l'adresse : https://github.com/ZhangHe0918/MTR-DuplexBench
English
Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench
PDF12April 22, 2026