ChatPaper.aiChatPaper

MTR-DuplexBench: 완전 이중 음성 언어 모델의 다중 회 대화 종합 평가를 위한 방향

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

April 17, 2026
저자: He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King
cs.AI

초록

풀-듀플렉스 음성 언어 모델(FD-SLM)은 기존의 하프-듀플렉스 모델에 비해 더욱 역동적인 사용자 경험을 제공하며 실시간 중첩 대화형 상호작용을 가능하게 합니다. 그러나 기존 벤치마크는 주로 단일 차례 상호작용 평가에 초점을 맞추어 다중 차례 통신의 복잡성을 간과하고 있습니다. FD-SLM을 다중 차례 환경에서 평가하는 것은 통신 내 턴 경계의 모호함, 모델 추론 중 발생하는 문맥 불일치 등 상당한 과제를 안고 있습니다. 또한 기존 벤치마크는 대화 기능 평가에만 집중하여 다른 중요한 측면을 종종 간과합니다. 이러한 격차를 해결하기 위해 본 논문은 FD-SLM의 포괄적인 다중 차례 평가를 위해 설계된 새로운 벤치마크인 MTR-DuplexBench를 소개합니다. MTR-DuplexBench는 연속적인 풀-듀플렉스 대화를 개별 턴으로 분할하여 턴별 평가를 수행할 뿐만 아니라, 대화 기능, 대화 품질, 지시 따르기, 안전성 등 다양한 평가 측면을 통합합니다. 실험 결과에 따르면, 현재의 FD-SLM들은 다중 차례와 다양한 평가 차원에 걸쳐 일관된 성능을 유지하는 데 어려움을 겪으며, 본 벤치마크의 필요성과 효과성을 입증하였습니다. 코드와 데이터는 다음에서 이용 가능합니다: https://github.com/ZhangHe0918/MTR-DuplexBench
English
Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench
PDF12April 22, 2026