Benchmarking des visuellen Zustandstrackings im multimodalen Video-Verständnis

Zusammenfassung

Das Verständnis eines Videos erfordert mehr als das Erkennen isolierter Momente, da Menschen kontinuierlich Entitäten, Zustände und Ereignisse im Zeitverlauf verfolgen. Diese Fähigkeit zur visuellen Zustandsverfolgung ist grundlegend für das Videoverständnis, bleibt jedoch in aktuellen Evaluierungen Multimodaler Großer Sprachmodelle (MLLMs) noch unzureichend erforscht. Wir führen den Visual State Tracking Benchmark (VSTAT) ein, einen videobasierten Benchmark, der darauf ausgelegt ist, die visuelle Zustandsverfolgung in MLLMs zu diagnostizieren. VSTAT besteht aus 834 Clips aus synthetischen und realweltlichen Videos, die mit 1.500 Fragen gepaart sind, die weder aus einem einzelnen Bild noch aus einem kurzen Segment beantwortet werden können, sondern eine kontinuierliche Wahrnehmung und Integration von Ereignissen über den gesamten Videostrom hinweg erfordern. Trotz ihrer starken Leistung in bestehenden Video-Benchmarks zeigen aktuelle Spitzen-MLLMs eine weitaus geringere Leistung als Menschen und liegen nur knapp über Antwort-Prior-Baselines. Um diese Lücke zu analysieren, vergleichen wir die Denkspuren der MLLMs mit dem zugrunde liegenden Videostrom, um zu verstehen, warum und wann MLLMs bei VSTAT versagen. Wir stellen fest, dass MLLMs in Textform korrekt schlussfolgern und verfolgen, aber bei der visuellen Wahrnehmung der zu verfolgenden Ereignisse versagen. Schließlich deuten unsere vorläufigen Evaluierungen darauf hin, dass aktuelle agentische Ansätze, einschließlich MLLM-basierter Video-Agenten und Codierungsagenten, diese Fehler nicht ohne weiteres beheben und bei VSTAT weiterhin hinter den Erwartungen zurückbleiben.

English

Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.