Les modèles vision-langage peuvent-ils résoudre le jeu des coquilles ?

Résumé

Le suivi d'entités visuelles est une capacité cognitive innée chez l'humain, mais il demeure un goulot d'étranglement critique pour les modèles vision-langage (VLM). Ce déficit est souvent masqué dans les benchmarks vidéo existants par des raccourcis visuels. Nous présentons VET-Bench, un banc d'essai diagnostique synthétique mettant en scène des objets visuellement identiques qui nécessitent un suivi exclusivement par continuité spatiotemporelle. Nos expériences révèlent que les VLMs actuels les plus performants obtiennent des résultats proches du hasard sur VET-Bench, exposant une limitation fondamentale : une dépendance excessive aux caractéristiques statiques par image et un échec à maintenir les représentations des entités dans le temps. Nous fournissons une analyse théorique établissant des liens avec le problème du suivi d'état, prouvant que les VLMs basés sur des transformateurs de profondeur fixe sont fondamentalement limités dans le suivi d'objets indiscernables sans supervision intermédiaire en raison de contraintes d'expressivité. Pour y remédier, nous proposons le Raisonnement en Chaîne Spatiotemporellement Ancré (SGCoT) : générer des trajectoires d'objets comme états intermédiaires explicites. En tirant parti de la capacité de suivi d'objets de Molmo2, nous suscitons un raisonnement SGCoT par fine-tuning sur des données textuelles synthétiques pour l'alignement. Notre méthode atteint une précision state-of-the-art dépassant 90% sur VET-Bench, démontrant que les VLMs peuvent résoudre de manière fiable et de bout en bout la tâche vidéo du "jeu de coquille" sans outils externes. Notre code et nos données sont disponibles à l'adresse https://vetbench.github.io.

English

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

Les modèles vision-langage peuvent-ils résoudre le jeu des coquilles ?

Can Vision-Language Models Solve the Shell Game?

Résumé

Support