Могут ли модели «визуальный язык» решить задачу «наперстки»?

Аннотация

Визуальное отслеживание объектов является врожденной когнитивной способностью человека, однако оно остается критическим узким местом для моделей "визуальный язык" (Vision-Language Models, VLM). Этот дефицит часто маскируется в существующих видео-бенчмарках за счет визуальных сокращений. Мы представляем VET-Bench — синтетическую диагностическую платформу, содержащую визуально идентичные объекты, для отслеживания которых необходимо полагаться исключительно на пространственно-временную непрерывность. Наши эксперименты показывают, что современные передовые VLM демонстрируют на VET-Bench результаты на уровне случайного угадывания или близкие к нему, что выявляет фундаментальное ограничение: чрезмерную зависимость от статических признаков отдельных кадров и неспособность поддерживать репрезентации объектов во времени. Мы предоставляем теоретический анализ, проводя параллели с проблемой отслеживания состояния, и доказываем, что VLM на основе трансформеров фиксированной глубины принципиально ограничены в возможности отслеживания неразличимых объектов без промежуточного контроля из-за ограничений выразительной способности. Для решения этой проблемы мы предлагаем Пространственно-временное обоснованное цепочку рассуждений (Spatiotemporal Grounded Chain-of-Thought, SGCoT): генерацию траекторий объектов в качестве явных промежуточных состояний. Используя способность Molmo2 к отслеживанию объектов, мы вызываем SGCoT-рассуждения путем тонкой настройки на синтезированных текстовых данных для согласования. Наш метод достигает рекордной точности, превышающей 90% на VET-Bench, демонстрируя, что VLM могут надежно решать задачу видеоигры "наперстки" от начала до конца без использования внешних инструментов. Наш код и данные доступны по адресу https://vetbench.github.io.

English

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

Могут ли модели «визуальный язык» решить задачу «наперстки»?

Can Vision-Language Models Solve the Shell Game?

Аннотация

Support