Мышление в рамках: как визуальный контекст и масштабирование во время тестирования расширяют возможности видеоанализа
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
January 28, 2026
Авторы: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI
Аннотация
Модели "визуальный язык" демонстрируют превосходные результаты в текстовых рассуждениях, однако зачастую испытывают трудности с тонким пространственным пониманием и планированием непрерывных действий, не справляясь с моделированием динамики, необходимой для сложного визуального мышления. В данной работе мы формулируем визуальное рассуждение с помощью моделей генерации видео, постулируя, что сгенерированные кадры могут служить промежуточными шагами рассуждения между начальными состояниями и решениями. Мы оцениваем их способности в двух различных режимах: навигация в лабиринте для последовательного дискретного планирования с малыми визуальными изменениями и головоломка Танграм для непрерывного манипулирования с значительными визуальными изменениями. Наши эксперименты выявляют три ключевых инсайта: (1) Надежная zero-shot генерализация: в обеих задачах модель демонстрирует высокую производительность на невидимых распределениях данных без специфического дообучения. (2) Визуальный контекст: модель эффективно использует визуальный контекст в качестве явного контроля, например, иконки агентов и формы танграма, что позволяет ей сохранять высокую визуальную согласованность и устойчиво адаптировать свои планирующие способности к незнакомым паттернам. (3) Визуальное масштабирование на этапе тестирования: мы наблюдаем закон масштабирования на этапе тестирования для последовательного планирования; увеличение длины генерируемого видео (визуального бюджета вывода) позволяет улучшить zero-shot генерализацию на пространственно и временно сложные пути. Эти результаты свидетельствуют о том, что генерация видео является не просто медиаинструментом, а масштабируемой и обобщаемой парадигмой для визуального мышления.
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.