Omni-DuplexEval: Bewertung der Echtzeit-Duplex-Omnimodal-Interaktion

Zusammenfassung

Echtzeit-Duplex-Interaktion ist für multimodale KI-Systeme, die in realen Szenarien operieren, unerlässlich, da Modelle kontinuierlich Streaming-Eingaben verarbeiten und zu geeigneten Zeitpunkten reagieren müssen. Die meisten bestehenden multimodalen großen Sprachmodelle (MLLMs) werden jedoch in Offline-Umgebungen evaluiert, in denen die gesamte Videoeingabe verarbeitet wird, bevor eine Antwort generiert wird. Obwohl neuere Arbeiten begonnen haben, Echtzeit-Duplex-MLLMs zu untersuchen, fehlt es noch an einem umfassenden Benchmark oder einer automatischen Bewertungsmethode für dieses Szenario. Um diese Lücke zu schließen, schlagen wir Omni-DuplexEval vor, einen Benchmark zur systematischen Evaluierung von Echtzeit-Duplex-Interaktion. Der Benchmark besteht aus zwei komplementären Szenarien: (1) Echtzeitbeschreibung, die die Fähigkeit bewertet, kontinuierliche, zeitlich abgestimmte Antworten zu generieren, die sich entwickelnde multimodale Eingaben verfolgen, und (2) proaktive Erinnerung, die die Fähigkeit bewertet, relevante Ereignisse zu identifizieren und zu geeigneten Zeitpunkten zu reagieren. Omni-DuplexEval umfasst 660 Videos mit feinkörnigen, manuell annotierten Labels und präzisen zeitlichen Metadaten, die sich über 9 Aufgaben aus realen Szenarien erstrecken, wobei alle Fragen als offene Fragen formuliert sind. Wir führen ferner ein automatisches Bewertungsframework basierend auf LLM-as-a-Judge ein, das eine systematische Evaluierung ermöglicht, indem es sowohl die Inhaltsausrichtung der Antwort als auch den Antwortzeitpunkt durch zeitstempelbewusstes und sequenzielles Denken gemeinsam bewertet und eine starke Übereinstimmung mit menschlichen Bewertungen erzielt. Experimente mit modernsten Duplex-MLLMs zeigen erhebliche Einschränkungen. Das leistungsfähigste Modell erreicht insgesamt nur 39,6 %, während es bei proaktiver Erinnerung lediglich 20,0 % erzielt. Unsere Analyse identifiziert zwei zentrale Herausforderungen: Modelle haben Schwierigkeiten, zeitnahe Antworten mit kohärenter, ganzheitlicher Inhaltsgenerierung in Einklang zu bringen, und sie sind oft nicht in der Lage, sowohl den Zeitpunkt als auch den Inhalt der Antwort zu bestimmen. Wir hoffen, dass unsere Arbeit weitere Fortschritte bei MLLMs ermöglicht.

English

Real-time duplex interaction is essential for multimodal AI systems operating in real-world scenarios, where models must continuously process streaming inputs and respond at appropriate moments. However, most existing multimodal large language models (MLLMs) are evaluated in offline settings, where the entire video input is processed before any response is generated. While recent work has started to explore real-time duplex MLLMs, there is still no comprehensive benchmark or automatic evaluation method for this setting. To address this gap, we propose Omni-DuplexEval, a benchmark for systematically evaluating real-time duplex interaction. The benchmark consists of two complementary scenarios: (1) Real-Time Description, which evaluates the ability to generate continuous, time-aligned responses that track evolving multimodal inputs, and (2) Proactive Reminder, which evaluates the ability to identify salient events and respond at appropriate moments. Omni-DuplexEval contains 660 videos with fine-grained, human-annotated labels and precise temporal metadata, spanning 9 tasks grounded in real-world scenarios, where all questions are formulated as open-ended queries. We further introduce an automatic evaluation framework based on LLM-as-a-Judge, which enables systematic assessment by jointly evaluating response-content alignment and response timing through timestamp-aware and sequential reasoning, achieving strong alignment with human judgments. Experiments on state-of-the-art duplex MLLMs reveal substantial limitations. The best-performing model achieves only 39.6% overall, while scoring only 20.0% on Proactive Reminder. Our analysis identifies two key challenges: models struggle to balance timely responses with coherent, holistic content generation, and they often fail to determine both when to respond and what to produce. We hope our work facilitates further progress in MLLMs.