MTR-DuplexBench: Rumo a uma Avaliação Abrangente de Conversas Multirround para Modelos de Linguagem de Fala Full-Duplex
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
April 17, 2026
Autores: He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King
cs.AI
Resumo
Os Modelos de Linguagem de Fala em Duplex Completo (FD-SLMs) permitem interações conversacionais sobrepostas em tempo real, oferecendo uma experiência de usuário mais dinâmica em comparação com os modelos tradicionais de semi-duplex. No entanto, os benchmarks existentes focam-se principalmente na avaliação de interações de rodada única, negligenciando as complexidades da comunicação multi-rodada. Avaliar FD-SLMs em cenários multi-rodada apresenta desafios significativos, incluindo limites de turno desfocados na comunicação e inconsistência contextual durante a inferência do modelo. Além disso, os benchmarks existentes frequentemente focam-se apenas na avaliação de características conversacionais, negligenciando outros aspetos críticos. Para colmatar estas lacunas, introduzimos o MTR-DuplexBench, um novo benchmark concebido para uma avaliação multi-rodada abrangente de FD-SLMs. O MTR-DuplexBench não apenas segmenta diálogos contínuos de duplex completo em turnos discretos para avaliação turno-a-turno, mas também incorpora várias dimensões de avaliação, incluindo características conversacionais, qualidade do diálogo, seguimento de instruções e segurança. Resultados experimentais revelam que os FD-SLMs atuais enfrentam dificuldades em manter um desempenho consistente em múltiplas rodadas e dimensões de avaliação, destacando a necessidade e eficácia do nosso benchmark. Código e dados estão disponíveis em: https://github.com/ZhangHe0918/MTR-DuplexBench
English
Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench