OmniPro: Ein umfassender Benchmark für das omni-proaktive Streaming-Video-Verständnis

Zusammenfassung

Omni-proaktives Streaming-Videoverständnis – also die autonome Entscheidung, wann und was aus kontinuierlichen audio-visuellen Strömen gesagt werden soll – ist eine aufkommende Fähigkeit omnimodaler großer Sprachmodelle. Bisherige Benchmarks weisen in drei zentralen Aspekten Defizite auf: Sie stützen sich überwiegend auf visuelle Signale, verwenden Polling- oder Festzeitstempel-Protokolle anstelle einer echten proaktiven Bewertung und decken nur eine begrenzte Anzahl von Aufgaben ab, was eine zuverlässige Beurteilung und Differenzierung omniproaktiver Streaming-Modelle verhindert. Wir stellen OmniPro vor, den ersten Benchmark, der gemeinsam die omnimodale Wahrnehmung, proaktive Reaktion und vielfältige Videoverstehensaufgaben evaluiert. Er umfasst 2.700 manuell verifizierte Stichproben aus 9 Teilaufgaben und 3 kognitiven Stufen, die 6 grundlegende Videoverständnisfähigkeiten abdecken. Bemerkenswert ist, dass 84 % der Stichproben Audiosignale (Sprache oder Nicht-Sprache) erfordern, und jede Stichprobe ist mit Modalitätsisolationslabels annotiert, die eine feinkörnige multimodale Analyse ermöglichen. Wir führen zudem ein duales Bewertungsprotokoll ein: Der Probe-Modus bewertet das Inhaltsverständnis, indem das Modell vor und nach jedem Ground-Truth-Trigger abgefragt wird, während der Online-Modus die vollständige proaktive Fähigkeit evaluiert, indem Modelle autonom entscheiden müssen, wann sie bei Streaming-Eingabe antworten. Die Evaluierung von 11 repräsentativen Modellen ergibt drei zentrale Erkenntnisse: (1) Audio bringt konsistente Verbesserungen, wird jedoch von verschiedenen Modellen sehr unterschiedlich genutzt; (2) die Leistung verschlechtert sich mit der Zeit deutlich, was auf eine begrenzte langfristige Robustheit hindeutet; (3) die Wahrnehmung von Nicht-Sprach-Audio bleibt die schwächste Dimension.

English

Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.