MTR-DuplexBench: Auf dem Weg zu einer umfassenden Evaluierung von Mehrrunden-Dialogen für Vollduplex-Sprachmodelle
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
April 17, 2026
Autoren: He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King
cs.AI
Zusammenfassung
Voll-Duplex-Sprachmodelle (FD-SLMs) ermöglichen Echtzeit-Interaktionen mit überlappenden Gesprächsbeiträgen und bieten im Vergleich zu traditionellen Halb-Duplex-Modellen ein dynamischeres Nutzererlebnis. Allerdings konzentrieren sich bestehende Benchmarks primär auf die Bewertung von Einzelrunden-Interaktionen und vernachlässigen die Komplexitäten mehrrundiger Kommunikation. Die Evaluation von FD-SLMs in Mehrrunden-Szenarien stellt erhebliche Herausforderungen dar, darunter verschwimmende Sprecherwechselgrenzen in der Kommunikation und Kontextinkonsistenzen während des Modell-Inferenzprozesses. Zudem legen bestehende Benchmarks oft ihren Fokus ausschließlich auf die Bewertung von Konversationsmerkmalen und vernachlässigen andere kritische Aspekte. Um diese Lücken zu schließen, führen wir MTR-DuplexBench ein, einen neuartigen Benchmark, der für eine umfassende Mehrrunden-Evaluation von FD-SLMs konzipiert wurde. MTR-DuplexBench unterteilt nicht nur kontinuierliche Voll-Duplex-Dialoge in diskrete Sprechwechsel für eine turn-by-turn-Bewertung, sondern integriert auch verschiedene Evaluationsaspekte, darunter Konversationsmerkmale, Dialogqualität, Befolgung von Anweisungen und Sicherheit. Experimentelle Ergebnisse zeigen, dass aktuelle FD-SLMs Schwierigkeiten haben, eine konsistente Leistung über mehrere Runden und Evaluationsdimensionen hinweg aufrechtzuerhalten, was die Notwendigkeit und Wirksamkeit unseres Benchmarks unterstreicht. Code und Daten sind verfügbar unter: https://github.com/ZhangHe0918/MTR-DuplexBench
English
Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench