Quand et combien imaginer : Mise à l'échelle adaptative lors des tests avec des modèles du monde pour le raisonnement spatial visuel
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
February 9, 2026
papers.authors: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal
cs.AI
papers.abstract
Malgré les progrès rapides des modèles de langage multimodaux (MLLM), le raisonnement spatial visuel reste peu fiable lorsque les réponses correctes dépendent de l'apparence d'une scène sous des angles de vue non observés ou alternatifs. Des travaux récents abordent ce problème en enrichissant le raisonnement avec des modèles du monde pour l'imagination visuelle, mais des questions telles que quand l'imagination est réellement nécessaire, dans quelle mesure elle est bénéfique, et quand elle devient néfaste, restent mal comprises. En pratique, une imagination non discriminante peut augmenter les calculs et même dégrader les performances en introduisant des preuves trompeuses. Dans ce travail, nous présentons une analyse approfondie de l'imagination visuelle au moment du test en tant que ressource contrôlable pour le raisonnement spatial. Nous étudions quand les preuves visuelles statiques sont suffisantes, quand l'imagination améliore le raisonnement, et comment une imagination excessive ou inutile affecte la précision et l'efficacité. Pour étayer cette analyse, nous introduisons AVIC, un cadre adaptatif au moment du test avec des modèles du monde qui raisonne explicitement sur la suffisance des preuves visuelles actuelles avant d'invoquer et de mettre à l'échelle sélectivement l'imagination visuelle. Sur des benchmarks de raisonnement spatial (SAT, MMSI) et un benchmark de navigation incarnée (R2R), nos résultats révèlent des scénarios clairs où l'imagination est critique, marginale ou préjudiciable, et montrent qu'un contrôle sélectif peut égaler ou surpasser les stratégies d'imagination fixes avec nettement moins d'appels au modèle du monde et de tokens de langage. Globalement, nos résultats soulignent l'importance d'analyser et de contrôler l'imagination au moment du test pour un raisonnement spatial efficace et fiable.
English
Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.