OmniPro : un benchmark complet pour la compréhension omniproactive de vidéos en streaming

Résumé

La compréhension vidéo en continu omni-proactive, c'est-à-dire la capacité à décider de manière autonome quand parler et quoi dire à partir de flux audio-visuels continus, est une capacité émergente des grands modèles de langage omni-modaux. Les benchmarks existants présentent trois lacunes principales : ils reposent principalement sur des signaux visuels, adoptent des protocoles d'interrogation ou à horodatage fixe au lieu d'une véritable évaluation proactive, et ne couvrent qu'un nombre limité de tâches, empêchant ainsi une évaluation fiable et une différenciation des modèles de streaming omni-proactifs. Nous présentons OmniPro, le premier benchmark à évaluer conjointement la perception omni-modale, la réponse proactive et diverses tâches de compréhension vidéo. Il comprend 2 700 échantillons vérifiés par des humains couvrant 9 sous-tâches et 3 niveaux cognitifs, représentant 6 capacités fondamentales de compréhension vidéo. Notamment, 84 % des échantillons nécessitent des signaux audio (parole ou non-parole), et chaque échantillon est annoté avec des étiquettes d'isolation de modalité pour permettre une analyse multimodale fine. Nous introduisons en outre un protocole d'évaluation à double mode : le mode Probe évalue la compréhension du contenu en interrogeant le modèle avant et après chaque déclencheur de vérité terrain, tandis que le mode Online évalue la pleine capacité proactive en exigeant des modèles qu'ils décident de manière autonome du moment de répondre dans un flux d'entrée continu. L'évaluation de 11 modèles représentatifs révèle trois constats clés : (1) l'audio apporte des gains constants mais avec une utilisation très variable selon les modèles, (2) les performances se dégradent significativement au fil du temps, indiquant une robustesse limitée sur de longs horizons, et (3) la perception audio non-parole reste la dimension la plus faible.

English

Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.