I modelli visione-linguaggio possono risolvere il gioco delle tre carte?

Abstract

Il tracciamento di entità visive è un'abilità cognitiva innata negli esseri umani, ma rimane un collo di bottiglia critico per i Modelli Visione-Linguaggio (VLM). Questo deficit è spesso mascherato nei benchmark video esistenti da scorciatoie visive. Introduciamo VET-Bench, un banco di prova diagnostico sintetico che presenta oggetti visivamente identici, i quali necessitano di essere tracciati esclusivamente attraverso la continuità spaziotemporale. I nostri esperimenti rivelano che gli attuali VLM all'avanguardia performano a livelli prossimi al caso su VET-Bench, esponendo una limitazione fondamentale: un'eccessiva dipendenza da caratteristiche statiche a livello di fotogramma e un fallimento nel mantenere le rappresentazioni delle entità nel tempo. Forniamo un'analisi teorica che stabilisce connessioni con il problema del tracciamento degli stati, dimostrando che i VLM basati su transformer a profondità fissa sono fondamentalmente limitati nel tracciare oggetti indistinguibili senza supervisione intermedia a causa di vincoli di espressività. Per affrontare ciò, proponiamo Spatiotemporal Grounded Chain-of-Thought (SGCoT): la generazione di traiettorie oggetto come stati intermedi espliciti. Sfruttando l'abilità di tracciamento oggetto di Molmo2, eliciamo il ragionamento SGCoT mediante fine-tuning su dati testuali sintetizzati per l'allineamento. Il nostro metodo raggiunge un'accuratezza all'avanguardia superiore al 90% su VET-Bench, dimostrando che i VLM possono risolvere in modo affidabile e end-to-end il compito del "gioco dei gusci" video senza strumenti esterni. Il nostro codice e i nostri dati sono disponibili su https://vetbench.github.io.

English

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

I modelli visione-linguaggio possono risolvere il gioco delle tre carte?

Can Vision-Language Models Solve the Shell Game?

Abstract

Support