OmniInteract : Évaluation comparative de l'interaction en streaming en conditions réelles pour les assistants omnimodaux en temps réel

Résumé

Nous présentons OmniInteract, un benchmark en continu pour les grands modèles de langage omnimodaux en temps réel, évalués par inférence en ligne native sur des flux audio-visuels. Contrairement à la compréhension vidéo hors ligne ou aux questions-réponses en continu déclenchées par un texte, OmniInteract préserve le flux audio-visuel d'origine et exige des modèles qu'ils le traitent en ligne, sans accès au contenu futur. Les requêtes utilisateur et les bruits ambiants sont intégrés dans la piste audio, obligeant les modèles à détecter des déclencheurs multimodaux, à décider quand répondre et à fournir une réponse pendant que le flux se déroule. OmniInteract contient 250 vidéos avec 1 430 créneaux de réponse temporellement ancrés : 1 062 créneaux 1Q1A dans des scénarios en temps réel, proactifs et imbriqués, et 368 créneaux 1QnA pour la surveillance continue des tâches et le guidage pas à pas. Chaque créneau comprend un déclencheur, une fenêtre de réponse et une réponse cible. Nous évaluons la justesse des réponses, le timing, les sorties invalides, la gestion des interruptions et la continuité contextuelle à l'aide du F1 de qualité-ponctualité tenant compte de l'interaction (IA-QTF1), de la suite de diagnostic des interruptions et du score d'achèvement de chaîne imbriquée. Les expériences montrent que les modèles actuels restent faibles en interaction en continu, le meilleur IA-QTF1 global n'atteignant que 0,368 et le meilleur IA-QTF1 pour 1QnA seulement 0,052. Une étude plus approfondie sur le raisonnement mathématique en configurations duplex intégral montre que la capacité hors ligne ne se transpose pas nécessairement à l'interaction en ligne. Le code et les ensembles de données seront accessibles au public à l'adresse https://github.com/Lucky-Lance/OmniInteract.

English

We introduce OmniInteract, a streaming benchmark for real-time omnimodal large language models evaluated through native online inference over audio-visual streams. Unlike offline video understanding or text-prompted streaming QA, OmniInteract preserves the original audio-visual stream and requires models to process it online, without access to future content. User queries and ambient sounds are embedded in the audio track, requiring models to detect multimodal triggers, decide when to respond, and answer while the stream unfolds. OmniInteract contains 250 videos with 1,430 temporally grounded response slots: 1,062 1Q1A slots across real-time, proactive, and nested scenarios, and 368 1QnA slots for continuous task monitoring and step guidance. Each slot includes a trigger, response window, and target answer. We evaluate response correctness, timing, invalid outputs, interruption handling, and context continuity using Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite, and Nested Chain Completion Score. Experiments show that current models remain weak in streaming interaction, with the best overall IA-QTF1 reaching only 0.368 and the best 1QnA IA-QTF1 only 0.052. Further study on mathematical reasoning in full-duplex settings shows that offline capability does not necessarily transfer to online interaction. Code and datasets will be made publicly accessible at https://github.com/Lucky-Lance/OmniInteract.