Game-Time: Evaluatie van Temporele Dynamiek in Gesproken Taalmodellen

Samenvatting

Conversationale gesproken taalmodellen (SLMs) komen naar voren als een veelbelovend paradigma voor real-time spraakinteractie. Hun vermogen om temporele dynamiek te beheersen, inclusief het beheren van timing, tempo en gelijktijdig spreken, blijft echter een kritieke en nog niet geëvalueerde uitdaging voor conversatievloeiendheid. Om deze kloof te overbruggen, introduceren we de Game-Time Benchmark, een raamwerk om deze temporele capaciteiten systematisch te beoordelen. Geïnspireerd door hoe mensen een taal leren door middel van taalactiviteiten, bestaat Game-Time uit basistaken voor het opvolgen van instructies en geavanceerde taken met temporele beperkingen, zoals tempovolging en gesynchroniseerde reacties. Onze evaluatie van diverse SLM-architecturen toont een duidelijk prestatieverschil: terwijl state-of-the-art modellen basistaken goed aankunnen, worstelen veel hedendaagse systemen nog steeds met fundamentele instructieopvolging. Nog kritischer is dat bijna alle modellen aanzienlijk verslechteren onder temporele beperkingen, wat hardnekkige zwaktes in tijdbewustzijn en full-duplex interactie blootlegt. De Game-Time Benchmark biedt een basis om toekomstig onderzoek te sturen naar meer temporeel bewuste conversatie-AI. Demo's en datasets zijn beschikbaar op onze projectwebsite https://ga642381.github.io/Game-Time.

English

Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.

Game-Time: Evaluatie van Temporele Dynamiek in Gesproken Taalmodellen

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Samenvatting

Support