Denken in Rahmen: Wie visueller Kontext und Skalierung zur Testzeit das Video-Verständnis verbessern
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
January 28, 2026
papers.authors: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI
papers.abstract
Vision-Language Models sind bei textuellen Schlussfolgerungen hervorragend, haben jedoch oft Schwierigkeiten mit feinkörnigem räumlichem Verständnis und kontinuierlicher Aktionsplanung, da sie die für komplexes visuelles Reasoning erforderliche Dynamik nicht simulieren können. In dieser Arbeit formulieren wir visuelles Reasoning mittels Videogenerierungsmodellen und postulieren, dass generierte Frames als Zwischenschritte des Reasoning zwischen Ausgangszuständen und Lösungen dienen können. Wir bewerten ihre Fähigkeiten in zwei verschiedenen Bereichen: *Maze Navigation* für sequentielle diskrete Planung mit geringer visueller Veränderung und *Tangram Puzzle* für kontinuierliche Manipulation mit starker visueller Veränderung. Unsere Experimente liefern drei zentrale Erkenntnisse: (1) Robuste Zero-Shot-Generalisierung: In beiden Aufgaben zeigt das Modell eine starke Leistung bei ungesehenen Datenverteilungen ohne spezifisches Finetuning. (2) Visueller Kontext: Das Modell nutzt visuellen Kontext effektiv als explizite Steuerung, wie Agenten-Symbole und Tangram-Formen, was ihm ermöglicht, hohe visuelle Konsistenz beizubehalten und seine Planungsfähigkeit robust an ungesehene Muster anzupassen. (3) Visuelles Test-Time-Scaling: Wir beobachten ein Test-Time-Scaling-Gesetz bei sequentieller Planung; eine Erhöhung der generierten Videolänge (visueller Inferenz-Budget) ermöglicht eine bessere Zero-Shot-Generalisierung auf räumlich und zeitlich komplexe Pfade. Diese Ergebnisse legen nahe, dass Videogenerierung nicht nur ein Medienwerkzeug ist, sondern ein skalierbares, generalisierbares Paradigma für visuelles Reasoning.
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.