Kunnen Vision-Language Modellen het Drie-bekerspel Oplossen?

Samenvatting

Visuele entiteitvolging is een aangeboren cognitief vermogen bij mensen, maar vormt nog steeds een kritieke beperking voor Vision-Language Models (VLMs). Dit tekort wordt vaak verhuld in bestaande videotestbanken door visuele shortcuts. Wij introduceren VET-Bench, een synthetische diagnostische testbank met visueel identieke objecten die uitsluitend via spatiotemporele continuïteit gevolgd moeten worden. Onze experimenten tonen aan dat huidige state-of-the-art VLMs op VET-Bench presteren op of nabij het kansniveau, wat een fundamentele beperking blootlegt: een overmatige afhankelijkheid van statische frame-level kenmerken en het onvermogen om entiteitsrepresentaties in de tijd te behouden. Wij bieden een theoretische analyse die verbanden legt met het state-tracking probleem, en bewijzen dat transformer-gebaseerde VLMs met vaste diepte fundamenteel beperkt zijn in het volgen van ononderscheidbare objecten zonder tussentijdse supervisie vanwege expressiviteitsbeperkingen. Om dit aan te pakken, stellen wij Spatiotemporeel Gegronde Chain-of-Thought (SGCoT) voor: het genereren van objecttrajecten als expliciete tussenstatussen. Door gebruik te maken van Molmo2's objectvolgbare vermogen, ontlokken wij SGCoT-redenering door fine-tuning op gesynthetiseerde tekstuele data voor alignment. Onze methode behaalt een state-of-the-art nauwkeurigheid van meer dan 90% op VET-Bench, wat aantoont dat VLMs de video shell-game taak end-to-end betrouwbaar kunnen oplossen zonder externe tools. Onze code en data zijn beschikbaar op https://vetbench.github.io.

English

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

Kunnen Vision-Language Modellen het Drie-bekerspel Oplossen?

Can Vision-Language Models Solve the Shell Game?

Samenvatting

Support