ChatPaper.aiChatPaper

Game-Time: Bewertung zeitlicher Dynamiken in gesprochenen Sprachmodellen

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

September 30, 2025
papers.authors: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
cs.AI

papers.abstract

Konversationelle Sprachmodelle (Spoken Language Models, SLMs) entwickeln sich zu einem vielversprechenden Paradigma für Echtzeit-Sprachinteraktionen. Ihre Fähigkeit, zeitliche Dynamiken wie Timing, Tempo und gleichzeitiges Sprechen zu bewältigen, bleibt jedoch eine kritische und bisher nicht bewertete Herausforderung für die Gesprächsflüssigkeit. Um diese Lücke zu schließen, stellen wir den Game-Time Benchmark vor, ein Framework zur systematischen Bewertung dieser zeitlichen Fähigkeiten. Inspiriert davon, wie Menschen Sprache durch sprachliche Aktivitäten erlernen, besteht Game-Time aus grundlegenden Aufgaben zur Befolgung von Anweisungen und fortgeschrittenen Aufgaben mit zeitlichen Einschränkungen, wie der Einhaltung des Tempos und synchronisierten Antworten. Unsere Bewertung verschiedener SLM-Architekturen zeigt eine deutliche Leistungsdiskrepanz: Während state-of-the-art Modelle grundlegende Aufgaben gut bewältigen, haben viele aktuelle Systeme noch Schwierigkeiten mit der grundlegenden Befolgung von Anweisungen. Noch kritischer ist, dass nahezu alle Modelle unter zeitlichen Einschränkungen erheblich an Leistung einbüßen, was anhaltende Schwächen im Zeitbewusstsein und in der Vollduplex-Interaktion offenbart. Der Game-Time Benchmark bietet eine Grundlage, um zukünftige Forschungen in Richtung einer stärker zeitbewussten konversationellen KI zu lenken. Demos und Datensätze sind auf unserer Projektwebsite https://ga642381.github.io/Game-Time verfügbar.
English
Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.
PDF262October 6, 2025