Omni-DuplexEval: Evaluatie van real-time duplex omni-modale interactie
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction
May 17, 2026
Auteurs: Chaoqun He, Mingyang Xiang, Yingjing Xu, Bokai Xu, Junbo Cui, Jie Zhou, Yuan Yao, Lijie Wen
cs.AI
Samenvatting
Realtime duplexinteractie is essentieel voor multimodale AI-systemen die in realistische scenario's opereren, waar modellen continu stromende inputs moeten verwerken en op geschikte momenten moeten reageren. De meeste bestaande multimodale grote taalmodellen (MLLM's) worden echter geëvalueerd in offline omgevingen, waarbij de gehele video-invoer wordt verwerkt voordat een reactie wordt gegenereerd. Hoewel recent werk begint met het verkennen van realtime duplex-MLLM's, ontbreekt nog steeds een uitgebreide benchmark of automatische evaluatiemethode voor deze setting. Om deze leemte aan te pakken, stellen we Omni-DuplexEval voor, een benchmark voor het systematisch evalueren van realtime duplexinteractie. De benchmark bestaat uit twee complementaire scenario's: (1) Real-Time Description, dat het vermogen evalueert om continue, tijdsynchrone antwoorden te genereren die de evoluerende multimodale input volgen, en (2) Proactive Reminder, dat het vermogen evalueert om opvallende gebeurtenissen te identificeren en op geschikte momenten te reageren. Omni-DuplexEval bevat 660 video's met fijnmazige, door mensen geannoteerde labels en precieze temporele metadata, verspreid over 9 taken die geworteld zijn in realistische scenario's, waarbij alle vragen als open vragen zijn geformuleerd. We introduceren verder een automatisch evaluatiekader op basis van LLM-as-a-Judge, dat systematische beoordeling mogelijk maakt door zowel de inhoudelijke overeenstemming van de respons als de timing ervan te evalueren via timestamp-bewust en sequentieel redeneren, wat een sterke overeenstemming met menselijke oordelen oplevert. Experimenten met state-of-the-art duplex-MLLM's tonen aanzienlijke beperkingen aan. Het best presterende model behaalt slechts 39,6% algemeen, terwijl het slechts 20,0% scoort op Proactive Reminder. Onze analyse identificeert twee belangrijke uitdagingen: modellen worstelen met het balanceren van tijdige reacties en coherente, holistische inhoudsgeneratie, en ze slagen er vaak niet in zowel te bepalen wanneer te reageren als wat te produceren. We hopen dat ons werk verdere vooruitgang in MLLM's bevordert.
English
Real-time duplex interaction is essential for multimodal AI systems operating in real-world scenarios, where models must continuously process streaming inputs and respond at appropriate moments. However, most existing multimodal large language models (MLLMs) are evaluated in offline settings, where the entire video input is processed before any response is generated. While recent work has started to explore real-time duplex MLLMs, there is still no comprehensive benchmark or automatic evaluation method for this setting. To address this gap, we propose Omni-DuplexEval, a benchmark for systematically evaluating real-time duplex interaction. The benchmark consists of two complementary scenarios: (1) Real-Time Description, which evaluates the ability to generate continuous, time-aligned responses that track evolving multimodal inputs, and (2) Proactive Reminder, which evaluates the ability to identify salient events and respond at appropriate moments. Omni-DuplexEval contains 660 videos with fine-grained, human-annotated labels and precise temporal metadata, spanning 9 tasks grounded in real-world scenarios, where all questions are formulated as open-ended queries. We further introduce an automatic evaluation framework based on LLM-as-a-Judge, which enables systematic assessment by jointly evaluating response-content alignment and response timing through timestamp-aware and sequential reasoning, achieving strong alignment with human judgments. Experiments on state-of-the-art duplex MLLMs reveal substantial limitations. The best-performing model achieves only 39.6% overall, while scoring only 20.0% on Proactive Reminder. Our analysis identifies two key challenges: models struggle to balance timely responses with coherent, holistic content generation, and they often fail to determine both when to respond and what to produce. We hope our work facilitates further progress in MLLMs.