OmniPro: Un Benchmark Integral para la Comprensión de Video en Streaming Omni-Proactivo

Resumen

La comprensión de video streaming omni-proactiva, es decir, decidir autónomamente cuándo hablar y qué decir a partir de flujos audiovisuales continuos, es una capacidad emergente de los modelos de lenguaje grandes omni-modales. Los benchmarks existentes presentan deficiencias en tres aspectos clave: dependen principalmente de señales visuales, adoptan protocolos de sondeo o de marcas de tiempo fijas en lugar de una verdadera evaluación proactiva, y abarcan solo un rango limitado de tareas, lo que impide una evaluación fiable y una diferenciación de los modelos omni-proactivos de streaming. Presentamos OmniPro, el primer benchmark que evalúa conjuntamente la percepción omni-modal, la respuesta proactiva y diversas tareas de comprensión de video. Comprende 2.700 muestras verificadas por humanos, distribuidas en 9 sub-tareas y 3 niveles cognitivos, cubriendo 6 capacidades básicas de comprensión de video. En particular, el 84% de las muestras requieren señales de audio (habla o no habla), y cada muestra está anotada con etiquetas de aislamiento de modalidad para permitir un análisis multimodal detallado. Además, introducimos un protocolo de evaluación de modo dual: el modo Sonda evalúa la comprensión del contenido interrogando al modelo antes y después de cada disparador de referencia, mientras que el modo en Línea evalúa la capacidad proactiva completa, exigiendo que los modelos decidan autónomamente cuándo responder en una entrada de streaming. La evaluación de 11 modelos representativos revela tres hallazgos clave: (1) el audio proporciona mejoras consistentes, pero con una utilización muy variable entre modelos; (2) el rendimiento se degrada significativamente con el tiempo, lo que indica una robustez limitada a largo plazo; y (3) la percepción de audio no verbal sigue siendo la dimensión más débil.

English

Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.