Omni-DuplexEval : Évaluation de l'interaction omni-modale duplex en temps réel

Résumé

L'interaction duplex en temps réel est essentielle pour les systèmes d'IA multimodaux opérant dans des scénarios réels, où les modèles doivent traiter en continu des flux d'entrée et répondre à des moments appropriés. Cependant, la plupart des modèles de langage multimodaux de grande taille (MLLMs) existants sont évalués dans des contextes hors ligne, où la totalité de l'entrée vidéo est traitée avant de générer une réponse. Bien que des travaux récents aient commencé à explorer les MLLMs duplex en temps réel, il n'existe toujours pas de référentiel complet ni de méthode d'évaluation automatique pour ce cadre. Pour combler cette lacune, nous proposons Omni-DuplexEval, un référentiel pour évaluer systématiquement l'interaction duplex en temps réel. Ce référentiel comprend deux scénarios complémentaires : (1) la description en temps réel, qui évalue la capacité à générer des réponses continues et temporellement alignées qui suivent l'évolution des entrées multimodales, et (2) le rappel proactif, qui évalue la capacité à identifier des événements saillants et à répondre à des moments appropriés. Omni-DuplexEval contient 660 vidéos avec des annotations fines réalisées par des humains et des métadonnées temporelles précises, couvrant 9 tâches ancrées dans des scénarios réels, où toutes les questions sont formulées sous forme de requêtes ouvertes. Nous introduisons également un cadre d'évaluation automatique basé sur le LLM en tant que juge, qui permet une évaluation systématique en jugeant conjointement l'alignement contenu-réponse et le moment de la réponse via un raisonnement temporel et séquentiel conscient des horodatages, atteignant ainsi une forte concordance avec les jugements humains. Les expériences menées sur des MLLMs duplex de pointe révèlent des limitations substantielles. Le modèle le plus performant n'atteint que 39,6 % de score global, et seulement 20,0 % sur le rappel proactif. Notre analyse identifie deux défis clés : les modèles peinent à équilibrer des réponses rapides avec une génération de contenu cohérente et globale, et ils échouent souvent à déterminer à la fois quand répondre et quoi produire. Nous espérons que notre travail favorisera de nouveaux progrès dans les MLLMs.

English

Real-time duplex interaction is essential for multimodal AI systems operating in real-world scenarios, where models must continuously process streaming inputs and respond at appropriate moments. However, most existing multimodal large language models (MLLMs) are evaluated in offline settings, where the entire video input is processed before any response is generated. While recent work has started to explore real-time duplex MLLMs, there is still no comprehensive benchmark or automatic evaluation method for this setting. To address this gap, we propose Omni-DuplexEval, a benchmark for systematically evaluating real-time duplex interaction. The benchmark consists of two complementary scenarios: (1) Real-Time Description, which evaluates the ability to generate continuous, time-aligned responses that track evolving multimodal inputs, and (2) Proactive Reminder, which evaluates the ability to identify salient events and respond at appropriate moments. Omni-DuplexEval contains 660 videos with fine-grained, human-annotated labels and precise temporal metadata, spanning 9 tasks grounded in real-world scenarios, where all questions are formulated as open-ended queries. We further introduce an automatic evaluation framework based on LLM-as-a-Judge, which enables systematic assessment by jointly evaluating response-content alignment and response timing through timestamp-aware and sequential reasoning, achieving strong alignment with human judgments. Experiments on state-of-the-art duplex MLLMs reveal substantial limitations. The best-performing model achieves only 39.6% overall, while scoring only 20.0% on Proactive Reminder. Our analysis identifies two key challenges: models struggle to balance timely responses with coherent, holistic content generation, and they often fail to determine both when to respond and what to produce. We hope our work facilitates further progress in MLLMs.