Бенчмаркинг визуального отслеживания состояния в мультимодальном понимании видео

Аннотация

Понимание видео требует большего, чем распознавание отдельных моментов, поскольку люди непрерывно отслеживают объекты, состояния и события во времени. Эта способность к отслеживанию визуальных состояний является основополагающей для понимания видео, однако остается недостаточно изученной в современных оценках мультимодальных больших языковых моделей (MLLMs). Мы представляем бенчмарк отслеживания визуальных состояний (VSTAT) — видеобенчмарк, предназначенный для диагностики отслеживания визуальных состояний в MLLMs. VSTAT включает 834 видеофрагмента из синтетических и реальных видео, к которым прилагается 1500 вопросов, на которые невозможно ответить, исходя из одного кадра или короткого сегмента; для ответа требуется непрерывное восприятие и интеграция событий на протяжении всего видеоряда. Несмотря на высокую производительность на существующих видеобенчмарках, мы обнаружили, что современные MLLMs работают значительно хуже людей и лишь незначительно превосходят базовые модели, основанные на априорном распределении ответов. Для анализа этого разрыва мы сравниваем трассы рассуждений MLLMs с исходным видеопотоком, чтобы понять, почему и когда MLLMs терпят неудачу на VSTAT. Мы обнаружили, что MLLMs правильно рассуждают и отслеживают в текстовой форме, но неспособны визуально воспринимать события, которые необходимо отслеживать. Наконец, наш предварительный анализ показывает, что недавние агентные подходы, включая видеогенты на основе MLLMs и кодовые агенты, не устраняют эти неудачи и по-прежнему показывают плохие результаты на VSTAT.

English

Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.