Évaluation comparative du suivi d'état visuel dans la compréhension vidéo multimodale

Résumé

Comprendre une vidéo nécessite davantage que la reconnaissance d'instants isolés, car les humains suivent en continu des entités, des états et des événements dans le temps. Cette capacité de suivi visuel des états est fondamentale pour la compréhension vidéo, mais reste sous-explorée dans les évaluations actuelles des modèles de langage multimodaux à grande échelle (MLLMs). Nous présentons le référentiel VSTAT (Visual STAte Tracking benchmark), un référentiel basé sur des vidéos conçu pour diagnostiquer le suivi visuel des états dans les MLLMs. VSTAT se compose de 834 extraits issus de vidéos synthétiques et réelles, associés à 1 500 questions qui ne peuvent être répondues à partir d'une seule image ou d'un court segment, exigeant une perception continue et une intégration des événements sur l'ensemble du flux vidéo. Malgré leurs performances élevées sur les référentiels vidéo existants, nous constatons que les MLLMs les plus avancés obtiennent des résultats bien inférieurs à ceux des humains, et seulement légèrement supérieurs à ceux des modèles de base exploitant les probabilités a priori des réponses. Pour analyser cet écart, nous comparons les traces de raisonnement des MLLMs avec le flux vidéo sous-jacent afin de comprendre pourquoi et quand les MLLMs échouent sur VSTAT. Nous observons que les MLLMs raisonnent et effectuent le suivi correctement dans le texte, mais échouent à percevoir visuellement les événements qu'ils doivent suivre. Enfin, notre évaluation préliminaire suggère que les approches agentiques récentes, y compris les agents vidéo basés sur des MLLMs et les agents de codage, ne résolvent pas facilement ces échecs, restant encore en deçà des performances sur VSTAT.

English

Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.