OmniPro: всеобъемлющий бенчмарк для омни-проактивного понимания потокового видео

Аннотация

Омни-проактивное понимание потокового видео, то есть автономное принятие решений о том, когда говорить и что говорить, на основе непрерывных аудиовизуальных потоков, является формирующейся способностью омни-модальных больших языковых моделей. Существующие бенчмарки имеют недостатки в трех ключевых аспектах: они полагаются в основном на визуальные сигналы, применяют протоколы опроса или фиксированных временных меток вместо истинной проактивной оценки и охватывают лишь ограниченный круг задач, что препятствует надежной оценке и дифференциации омни-проактивных потоковых моделей. Мы представляем OmniPro — первый бенчмарк для совместной оценки омни-модального восприятия, проактивного реагирования и разнообразных задач понимания видео. Он включает 2 700 проверенных человеком образцов, охватывающих 9 подзадач и 3 когнитивных уровня, покрывающих 6 базовых способностей понимания видео. Примечательно, что 84% образцов требуют аудиосигналов (речь или неречевые звуки), и каждый образец аннотирован метками изоляции модальности для обеспечения детального мультимодального анализа. Далее мы вводим протокол оценки с двумя режимами: режим Probe оценивает понимание содержания, запрашивая модель до и после каждого истинного триггера, в то время как режим Online оценивает полную проактивную способность, требуя от моделей автономного решения, когда отвечать на потоковом входе. Оценка 11 репрезентативных моделей выявляет три ключевых результата: (1) аудио обеспечивает стабильный прирост, но с высокой вариабельностью использования среди моделей, (2) производительность значительно снижается со временем, что указывает на ограниченную долгосрочную устойчивость, и (3) восприятие неречевого аудио остается самым слабым аспектом.

English

Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.