ChatPaper.aiChatPaper

Denken in Frames: Hoe Visuele Context en Schaling tijdens Tests Video-redeneervermogen Versterken

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

January 28, 2026
Auteurs: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI

Samenvatting

Vision-Language Models presteren uitstekend op het gebied van tekstueel redeneren, maar ze hebben vaak moeite met gedetailleerd ruimtelijk inzicht en continue actieplanning, waardoor ze niet in staat zijn de dynamiek te simuleren die nodig is voor complex visueel redeneren. In dit werk formuleren we visueel redeneren door middel van videogeneratiemodellen, waarbij we veronderstellen dat gegenereerde frames als tussenliggende redeneerstappen kunnen fungeren tussen beginstatussen en oplossingen. We evalueren hun capaciteit in twee verschillende regimes: Doolhofnavigatie voor sequentiële discrete planning met weinig visuele verandering en Tangrampuzzels voor continue manipulatie met veel visuele verandering. Onze experimenten onthullen drie kritieke inzichten: (1) Robuuste zero-shot generalisatie: bij beide taken toont het model sterke prestaties op onzichtbare datadistributies zonder specifieke finetuning. (2) Visuele context: het model gebruikt visuele context effectief als expliciete controle, zoals agentpictogrammen en tangramvormen, waardoor het hoge visuele consistentie kan behouden en zijn planningsvermogen robuust kan aanpassen aan onbekende patronen. (3) Visuele schaling tijdens testtijd: we observeren een testtijd-schalingswet in sequentiële planning; het verlengen van de gegenereerde videolengte (visueel inferentiebudget) maakt betere zero-shot generalisatie naar ruimtelijk en temporeel complexe paden mogelijk. Deze bevindingen suggereren dat videogeneratie niet slechts een mediatechniek is, maar een schaalbaar, generaliseerbaar paradigma voor visueel redeneren.
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.
PDF134February 7, 2026