ChatPaper.aiChatPaper

フレーム思考:ビデオ推論を強化する視覚的コンテキストとテスト時スケーリング

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

January 28, 2026
著者: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI

要旨

視覚言語モデルはテキスト推論において優れた性能を発揮するが、細粒度の空間理解や連続的な行動計画には課題があり、複雑な視覚推論に必要な力学のシミュレーションが困難である。本研究では、ビデオ生成モデルを用いた視覚推論の定式化を提案し、生成されたフレームが初期状態と解の中間推論ステップとして機能し得ると仮定する。評価では二つの異なる領域を設定する:視覚変化が少ない離散的順次計画タスクである迷路ナビゲーションと、視覚変化が大きい連続的操作タスクであるタングラムパズルである。実験から三つの重要な知見が得られた:(1) ロバストなゼロショット一般化:両タスクにおいて、モデルは特定のファインチューニングなしに見えないデータ分布に対しても強力な性能を示す。(2) 視覚的コンテキストの活用:エージェントアイコンやタングラム形状などの視覚的コンテキストを明示的な制御として効果的に利用し、高い視覚的一貫性を維持するとともに、未見のパターンに対しても計画能力を頑健に適応させる。(3) 視覚的テスト時スケーリング:順次計画においてテスト時スケーリング則を確認。生成ビデオ長(視覚的推論予算)を増加させることで、空間的・時間的に複雑な経路に対するゼロショット一般化性能が向上する。これらの発見は、ビデオ生成が単なるメディアツールではなく、視覚推論のためのスケーラブルで一般化可能なパラダイムであることを示唆する。
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.
PDF133February 7, 2026