Os Modelos Visuais e de Linguagem Podem Resolver o Jogo das Conchas?

Resumo

O rastreamento de entidades visuais é uma capacidade cognitiva inata em humanos, mas continua a ser um gargalo crítico para os Modelos de Linguagem e Visão (VLMs). Este défice é frequentemente mascarado nos benchmarks de vídeo existentes por atalhos visuais. Apresentamos o VET-Bench, um banco de testes de diagnóstico sintético que apresenta objetos visualmente idênticos, tornando necessário o rastreamento exclusivamente através da continuidade espaço-temporal. As nossas experiências revelam que os VLMs mais avançados atuais têm um desempenho ao nível ou próximo do acaso no VET-Bench, expondo uma limitação fundamental: uma excessiva dependência de características estáticas a nível de *frame* e uma incapacidade de manter representações de entidades ao longo do tempo. Fornecemos uma análise teórica que estabelece ligações com o problema de rastreamento de estado, provando que os VLMs baseados em *transformers* de profundidade fixa são fundamentalmente limitados no rastreamento de objetos indistinguíveis sem supervisão intermédia, devido a restrições de expressividade. Para resolver isto, propomos o *Spatiotemporal Grounded Chain-of-Thought* (SGCoT): gerar trajetórias de objetos como estados intermédios explícitos. Aproveitando a capacidade de rastreamento de objetos do Molmo2, suscitamos o raciocínio SGCoT através de *fine-tuning* com dados sintetizados apenas de texto para alinhamento. O nosso método atinge uma precisão state-of-the-art superior a 90% no VET-Bench, demonstrando que os VLMs podem resolver de forma fiável a tarefa do jogo das conchas em vídeo de ponta a ponta, sem ferramentas externas. O nosso código e dados estão disponíveis em https://vetbench.github.io.

English

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

Os Modelos Visuais e de Linguagem Podem Resolver o Jogo das Conchas?

Can Vision-Language Models Solve the Shell Game?

Resumo

Support