Können Vision-Sprach-Modelle das Schälchenspiel lösen?

Zusammenfassung

Visuelles Entitätentracking ist eine angeborene kognitive Fähigkeit des Menschen, stellt jedoch nach wie vor einen kritischen Engpass für Vision-Language-Modelle (VLMs) dar. Dieses Defizit wird in bestehenden Video-Benchmarks oft durch visuelle Abkürzungen verschleiert. Wir stellen VET-Bench vor, eine synthetische diagnostische Testumgebung mit visuell identischen Objekten, die ein Tracking ausschließlich über raumzeitliche Kontinuität erfordert. Unsere Experimente zeigen, dass aktuelle state-of-the-art VLMs bei VET-Bench auf oder nahe dem Zufallsniveau abschneiden, was eine grundlegende Limitation offenlegt: eine Überabhängigkeit von statischen Merkmalen auf Einzelbild-Ebene und das Versagen, Entitätsrepräsentationen über die Zeit hinweg aufrechtzuerhalten. Wir liefern eine theoretische Analyse, die Verbindungen zum State-Tracking-Problem herstellt, und beweisen, dass Transformer-basierte VLMs mit fester Tiefe aufgrund von Expressivitätsbeschränkungen grundsätzlich nicht in der Lage sind, ununterscheidbare Objekte ohne Zwischenaufsicht zu tracken. Um dieses Problem zu adressieren, schlagen wir Spatiotemporal Grounded Chain-of-Thought (SGCoT) vor: das Generieren von Objekttrajektorien als explizite Zwischenzustände. Indem wir die Objektverfolgungsfähigkeit von Molmo2 nutzen, lösen wir SGCoT-Reasoning durch Feinabstimmung auf synthetisierten reinen Textdaten zur Alignment-Förderung aus. Unsere Methode erreicht eine state-of-the-art Genauigkeit von über 90 % auf VET-Bench und demonstriert, dass VLMs die Video-Shell-Game-Aufgabe end-to-end ohne externe Werkzeuge zuverlässig lösen können. Unser Code und unsere Daten sind unter https://vetbench.github.io verfügbar.

English

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

Können Vision-Sprach-Modelle das Schälchenspiel lösen?

Can Vision-Language Models Solve the Shell Game?

Zusammenfassung

Support