OmniPro: Um Benchmark Abrangente para Compreensão de Vídeo em Streaming Omni-Proativo

Resumo

A compreensão de vídeo em streaming omniproativa, ou seja, decidir autonomamente quando falar e o que dizer a partir de fluxos audiovisuais contínuos, é uma capacidade emergente de modelos de linguagem grandes omnimodais. Os benchmarks existentes são insuficientes em três aspectos principais: dependem principalmente de sinais visuais, adotam protocolos de sondagem ou de timestamps fixos em vez de uma verdadeira avaliação proativa, e cobrem apenas uma gama limitada de tarefas, impedindo uma avaliação e diferenciação confiáveis de modelos de streaming omniproativos. Apresentamos o OmniPro, o primeiro benchmark a avaliar conjuntamente a percepção omnimodal, a resposta proativa e diversas tarefas de compreensão de vídeo. Ele compreende 2.700 amostras verificadas por humanos abrangendo 9 sub-tarefas e 3 níveis cognitivos, cobrindo 6 capacidades básicas de compreensão de vídeo. Notavelmente, 84% das amostras requerem sinais de áudio (fala ou não-fala), e cada amostra é anotada com rótulos de isolamento de modalidade para permitir uma análise multimodal detalhada. Introduzimos ainda um protocolo de avaliação de modo duplo: o modo Probe avalia a compreensão do conteúdo consultando o modelo antes e depois de cada gatilho de verdade fundamental, enquanto o modo Online avalia a capacidade proativa completa, exigindo que os modelos decidam autonomamente quando responder na entrada em streaming. A avaliação de 11 modelos representativos revela três descobertas principais: (1) o áudio fornece ganhos consistentes, mas com utilização altamente variável entre os modelos, (2) o desempenho degrada-se significativamente ao longo do tempo, indicando robustez limitada a longo prazo, e (3) a percepção de áudio não-fala permanece a dimensão mais fraca.

English

Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.