OmniPro: Een alomvattende benchmark voor omni-proactief begrip van streaming video

Samenvatting

Omni-proactief streaming video begrip, d.w.z. autonoom beslissen wanneer te spreken en wat te zeggen uit continue audio-visuele stromen, is een opkomende capaciteit van omni-modale grote taalmodellen. Bestaande benchmarks schieten tekort op drie belangrijke aspecten: ze vertrouwen voornamelijk op visuele signalen, hanteren polling- of vast-tijdstempelprotocollen in plaats van echte proactieve evaluatie, en bestrijken slechts een beperkt aantal taken, waardoor betrouwbare beoordeling en differentiatie van omni-proactieve streamingmodellen wordt belemmerd. We presenteren OmniPro, de eerste benchmark die gezamenlijk omni-modale perceptie, proactief reageren en diverse video-begriptaken evalueert. Deze omvat 2.700 door mensen geverifieerde samples verdeeld over 9 subtaken en 3 cognitieve niveaus, die 6 basisvaardigheden voor video begrip beslaan. Opvallend is dat 84% van de samples audiosignalen vereist (spraak of niet-spraak), en elk sample is geannoteerd met modaliteit-isolatielabels om fijnmazige multimodale analyse mogelijk te maken. We introduceren verder een tweemodig evaluatieprotocol: de Probe-modus beoordeelt inhoudsbegrip door het model te ondervragen vóór en na elke grondwaarheidstrigger, terwijl de Online-modus het volledige proactieve vermogen evalueert door modellen te verplichten autonoom te beslissen wanneer te reageren in een streaming invoer. Evaluatie van 11 representatieve modellen onthult drie belangrijke bevindingen: (1) audio levert consistente winst, maar met sterk variërend gebruik tussen modellen, (2) prestaties nemen significant af over tijd, wat wijst op beperkte robuustheid op lange termijn, en (3) niet-spraak-audioperceptie blijft de zwakste dimensie.

English

Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.