ChatPaper.aiChatPaper

いつ、どれだけ想像すべきか:視覚的空間推論のためのワールドモデルを用いた適応的テスト時スケーリング

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

February 9, 2026
著者: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)の急速な進展にも関わらず、視覚的空間推論は、正解が未観測または代替視点における情景の見え方に依存する場合、依然として信頼性に欠ける。この問題に対処するため、視覚的想像のために世界モデルを用いて推論を拡張する最近の研究があるが、想像が実際に必要な場合、どの程度の想像が有益か、そしていつ有害となるかについては、未解明のままである。実際には、無差別な想像は計算量を増大させるだけでなく、誤った証拠を導入することで性能を劣化させうる。本研究では、空間推論のための制御可能なリソースとして、テスト時における視覚的想像力に関する詳細な分析を行う。静的視覚的証拠で十分な場合、想像が推論を改善する場合、そして過度または不必要な想像が精度と効率にどのように影響するかを検討する。この分析を支援するため、我々はAVICを提案する。これは世界モデルを備えた適応的テスト時フレームワークであり、現在の視覚的証拠の十分性を明示的に推論した上で、選択的に視覚的想像を呼び出し、その規模を調整する。空間推論ベンチマーク(SAT, MMSI)および具身化ナビゲーションベンチマーク(R2R)における結果は、想像が決定的、限定的、または有害となる明確なシナリオを明らかにし、選択的制御が固定の想像戦略を、大幅に少ない世界モデル呼び出しと言語トークン数で同等または上回る性能を発揮することを示す。全体として、我々の発見は、効率的かつ信頼性の高い空間推論のためのテスト時想像力の分析と制御の重要性を浮き彫りにする。
English
Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.
PDF72February 11, 2026