Benchmarking van visuele toestandstracking in multimodaal videobegrip

Samenvatting

Het begrijpen van een video vereist meer dan het herkennen van geïsoleerde momenten, omdat mensen continu entiteiten, toestanden en gebeurtenissen in de tijd volgen. Dit vermogen voor visuele toestandsvolgorde is fundamenteel voor videobegrip, maar blijft onderbelicht in huidige evaluaties van multimodale grote taalmodellen (MLLMs). We introduceren de Visual STAte Tracking benchmark (VSTAT), een video-gebaseerde benchmark ontworpen om visuele toestandsvolgorde in MLLMs te diagnosticeren. VSTAT bestaat uit 834 clips afkomstig van zowel synthetische als echte video's, gekoppeld aan 1.500 vragen die niet kunnen worden beantwoord op basis van een enkel frame of kort segment, maar continue perceptie en integratie van gebeurtenissen over de gehele videostroom vereisen. Ondanks hun sterke prestaties op bestaande video-benchmarks, zien we dat de modernste MLLMs ver onder het menselijk niveau presteren en slechts bescheiden boven basislijnen die gebruikmaken van antwoordprior. Om deze kloof te analyseren, vergelijken we de denksporen van MLLMs met de onderliggende videostroom om te begrijpen waarom en wanneer MLLMs falen op VSTAT. We vinden dat MLLMs correct redeneren en volgen in tekst, maar falen in het visueel waarnemen van de gebeurtenissen die ze moeten volgen. Tot slot suggereert onze voorlopige evaluatie dat recente agentische benaderingen, waaronder MLLM-gebaseerde video-agenten en codeer-agenten, deze fouten niet gemakkelijk oplossen en nog steeds tekortschieten op VSTAT.

English

Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.