Avaliação comparativa do rastreamento de estado visual na compreensão de vídeo multimodal

Resumo

Compreender um vídeo requer mais do que reconhecer momentos isolados, pois os humanos acompanham continuamente entidades, estados e eventos ao longo do tempo. Essa capacidade de rastreamento visual de estado é fundamental para a compreensão de vídeos, mas permanece pouco explorada nas avaliações atuais de Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Apresentamos o benchmark Visual State Tracking (VSTAT), um benchmark baseado em vídeo projetado para diagnosticar o rastreamento visual de estado em MLLMs. O VSTAT consiste em 834 clipes extraídos de vídeos sintéticos e do mundo real, emparelhados com 1.500 perguntas que não podem ser respondidas a partir de um único quadro ou segmento curto, exigindo percepção contínua e integração de eventos ao longo de todo o fluxo de vídeo. Apesar de seu forte desempenho em benchmarks de vídeo existentes, descobrimos que os MLLMs de última geração têm desempenho muito inferior ao dos humanos e apenas modestamente acima das linhas de base de respostas anteriores. Para analisar essa lacuna, comparamos os traços de pensamento dos MLLMs com o fluxo de vídeo subjacente para entender por que e quando os MLLMs falham no VSTAT. Descobrimos que os MLLMs raciocinam e rastreiam corretamente em texto, mas falham em perceber visualmente os eventos que precisam rastrear. Por fim, nossa avaliação preliminar sugere que abordagens agentivas recentes, incluindo agentes de vídeo baseados em MLLM e agentes de codificação, não resolvem prontamente essas falhas, ainda ficando aquém no VSTAT.

English

Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.