MTR-DuplexBench: Op weg naar een uitgebreide evaluatie van multi-ronde gesprekken voor full-duplex spraaktaalmodellen

Samenvatting

Full-Duplex Spraaktaalmodellen (FD-SLM's) maken realtime, overlappende gespreksinteracties mogelijk en bieden daarmee een dynamischere gebruikerservaring dan traditionele half-duplex modellen. Bestaande benchmarks richten zich echter voornamelijk op de evaluatie van enkelvoudige interacties, waarbij de complexiteit van meerronde communicatie wordt verwaarloosd. Het evalueren van FD-SLM's in meerronde settings brengt aanzienlijke uitdagingen met zich mee, zoals vervaagde beurtgrenzen in de communicatie en inconsistentie van context tijdens modelinferentie. Bovendien richten bestaande benchmarks zich vaak uitsluitend op het evalueren van gesprekskenmerken, waarbij andere cruciale aspecten buiten beschouwing worden gelaten. Om deze lacunes aan te pakken, introduceren wij MTR-DuplexBench, een nieuwe benchmark die is ontworpen voor een uitgebreide meerronde evaluatie van FD-SLM's. MTR-DuplexBench segmenteert niet alleen continue full-duplex dialogen in discrete beurten voor een beurt-voor-beurt-beoordeling, maar integreert ook diverse evaluatieaspecten, waaronder gesprekskenmerken, dialoogkwaliteit, instructieopvolging en veiligheid. Experimentele resultaten tonen aan dat huidige FD-SLM's moeite hebben om consistente prestaties te leveren over meerdere rondes en evaluatiedimensies, wat de noodzaak en effectiviteit van onze benchmark onderstreept. Code en data zijn beschikbaar op: https://github.com/ZhangHe0918/MTR-DuplexBench

English

Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench

MTR-DuplexBench: Op weg naar een uitgebreide evaluatie van multi-ronde gesprekken voor full-duplex spraaktaalmodellen

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Samenvatting

Support