¿Pueden los Modelos de Visión y Lenguaje Resolver el Juego de las Vainas?

Resumen

El seguimiento de entidades visuales es una capacidad cognitiva innata en los humanos, pero sigue siendo un cuello de botella crítico para los Modelos de Lenguaje y Visión (VLMs). Este déficit a menudo queda oculto en los benchmarks de video existentes debido a atajos visuales. Presentamos VET-Bench, un banco de pruebas de diagnóstico sintético que presenta objetos visualmente idénticos, lo que hace necesario el seguimiento exclusivamente a través de la continuidad espacio-temporal. Nuestros experimentos revelan que los VLMs actuales de última generación rinden en o cerca del nivel de azar en VET-Bench, exponiendo una limitación fundamental: una dependencia excesiva en características estáticas a nivel de fotograma y una incapacidad para mantener representaciones de entidades a lo largo del tiempo. Proporcionamos un análisis teórico que establece conexiones con el problema del seguimiento de estados, demostrando que los VLMs basados en transformadores de profundidad fija están fundamentalmente limitados para seguir objetos indistinguibles sin supervisión intermedia debido a restricciones de expresividad. Para abordar esto, proponemos la Cadena de Pensamiento Anclada Espacio-Temporal (SGCoT): generar trayectorias de objetos como estados intermedios explícitos. Aprovechando la capacidad de seguimiento de objetos de Molmo2, provocamos el razonamiento SGCoT mediante el ajuste fino en datos sintetizados de solo texto para lograr alineación. Nuestro método alcanza una precisión de última generación superior al 90% en VET-Bench, demostrando que los VLMs pueden resolver de manera confiable y de extremo a extremo la tarea del juego de las conchas en video sin herramientas externas. Nuestro código y datos están disponibles en https://vetbench.github.io.

English

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

¿Pueden los Modelos de Visión y Lenguaje Resolver el Juego de las Vainas?

Can Vision-Language Models Solve the Shell Game?

Resumen

Support