MTR-DuplexBench: Hacia una Evaluación Integral de Conversaciones Multirronda para Modelos de Lenguaje de Voz Full-Duplex

Resumen

Los Modelos de Lenguaje de Voz en Dúplex Completo (FD-SLMs) permiten interacciones conversacionales superpuestas en tiempo real, ofreciendo una experiencia de usuario más dinámica en comparación con los modelos tradicionales de semidúplex. Sin embargo, los benchmarks existentes se centran principalmente en evaluar interacciones de una sola ronda, descuidando las complejidades de la comunicación multi-ronda. Evaluar los FD-SLMs en entornos multi-ronda plantea desafíos significativos, incluyendo límites de turno difusos en la comunicación e inconsistencias de contexto durante la inferencia del modelo. Además, los benchmarks existentes a menudo se centran únicamente en evaluar características conversacionales, descuidando otros aspectos críticos. Para abordar estas brechas, presentamos MTR-DuplexBench, un benchmark novedoso diseñado para una evaluación integral multi-ronda de los FD-SLMs. MTR-DuplexBench no solo segmenta diálogos continuos de dúplex completo en turnos discretos para una evaluación turno por turno, sino que también incorpora varias dimensiones de evaluación, incluyendo características conversacionales, calidad del diálogo, seguimiento de instrucciones y seguridad. Los resultados experimentales revelan que los FD-SLMs actuales enfrentan dificultades para mantener un rendimiento consistente a través de múltiples rondas y dimensiones de evaluación, destacando la necesidad y efectividad de nuestro benchmark. El código y los datos están disponibles en: https://github.com/ZhangHe0918/MTR-DuplexBench

English

Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench

MTR-DuplexBench: Hacia una Evaluación Integral de Conversaciones Multirronda para Modelos de Lenguaje de Voz Full-Duplex

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Resumen

Support