Penser en cadres : comment le contexte visuel et la mise à l'échelle au moment du test renforcent le raisonnement vidéo
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
January 28, 2026
papers.authors: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI
papers.abstract
Les modèles vision-langage excellent dans le raisonnement textuel, mais ils peinent souvent à appréhender la compréhension spatiale fine et la planification d'actions continues, échouant à simuler la dynamique nécessaire au raisonnement visuel complexe. Dans ce travail, nous formulons le raisonnement visuel au moyen de modèles de génération vidéo, en postulant que les images générées peuvent servir d'étapes de raisonnement intermédiaires entre les états initiaux et les solutions. Nous évaluons leur capacité dans deux régimes distincts : la Navigation dans un labyrinthe pour la planification séquentielle discrète avec de faibles changements visuels, et le Puzzle Tangram pour la manipulation continue avec des changements visuels importants. Nos expériences révèlent trois insights critiques : (1) Généralisation Zero-Shot Robuste : Dans les deux tâches, le modèle démontre de fortes performances sur des distributions de données non vues sans fine adaptation spécifique. (2) Contexte Visuel : Le modèle utilise efficacement le contexte visuel comme contrôle explicite, tel que les icônes d'agent et les formes de tangram, lui permettant de maintenir une haute cohérence visuelle et d'adapter robustement sa capacité de planification à des motifs non vus. (3) Mise à l'échelle Visuelle au Moment du Test : Nous observons une loi de mise à l'échelle au moment du test dans la planification séquentielle ; l'augmentation de la longueur de la vidéo générée (budget d'inférence visuelle) permet une meilleure généralisation zero-shot vers des chemins spatialement et temporellement complexes. Ces résultats suggèrent que la génération vidéo n'est pas simplement un outil média, mais un paradigme évolutif et généralisable pour le raisonnement visuel.
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.