MTR-DuplexBench: Verso una Valutazione Completta delle Conversazioni Multi-turn per Modelli Linguistici Vocali Full-Duplex

Abstract

I modelli linguistici di conversazione full-duplex (FD-SLMs) abilitano interazioni conversazionali in tempo reale e sovrapposte, offrendo un'esperienza utente più dinamica rispetto ai tradizionali modelli half-duplex. Tuttavia, i benchmark esistenti si concentrano principalmente sulla valutazione di interazioni a turno singolo, trascurando le complessità della comunicazione multi-turno. La valutazione degli FD-SLMs in contesti multi-turno presenta sfide significative, tra cui confini di turno sfumati nella comunicazione e incoerenza contestuale durante l'inferenza del modello. Inoltre, i benchmark esistenti spesso si focalizzano esclusivamente sulla valutazione delle caratteristiche conversazionali, tralasciando altri aspetti critici. Per colmare queste lacune, introduciamo MTR-DuplexBench, un nuovo benchmark progettato per una valutazione multi-turno completa degli FD-SLMs. MTR-DuplexBench non solo segmenta i dialoghi full-duplex continui in turni discreti per una valutazione turno per turno, ma incorpora anche vari aspetti valutativi, incluse caratteristiche conversazionali, qualità del dialogo, aderenza alle istruzioni e sicurezza. I risultati sperimentali rivelano che gli attuali FD-SLMs incontrano difficoltà nel mantenere prestazioni consistenti attraverso più turni e dimensioni valutative, evidenziando la necessità e l'efficacia del nostro benchmark. Codice e dati sono disponibili su: https://github.com/ZhangHe0918/MTR-DuplexBench

English

Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench

MTR-DuplexBench: Verso una Valutazione Completta delle Conversazioni Multi-turn per Modelli Linguistici Vocali Full-Duplex

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Abstract

Support