ChatPaper.aiChatPaper

Cuándo y Cuánto Imaginar: Escalado Adaptativo en Tiempo de Prueba con Modelos del Mundo para el Razonamiento Espacial Visual

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

February 9, 2026
Autores: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal
cs.AI

Resumen

A pesar del rápido progreso en los Modelos de Lenguaje Grandes Multimodales (MLLMs), el razonamiento espacial visual sigue siendo poco fiable cuando las respuestas correctas dependen de cómo se vería una escena desde puntos de vista no observados o alternativos. Trabajos recientes abordan este problema aumentando el razonamiento con modelos del mundo para la imaginación visual, pero cuestiones como cuándo es realmente necesaria la imaginación, qué cantidad de ella es beneficiosa y cuándo se vuelve perjudicial siguen sin comprenderse bien. En la práctica, la imaginación indiscriminada puede aumentar la carga computacional e incluso degradar el rendimiento al introducir evidencia engañosa. En este trabajo, presentamos un análisis en profundidad de la imaginación visual en tiempo de prueba como un recurso controlable para el razonamiento espacial. Estudiamos cuándo la evidencia visual estática es suficiente, cuándo la imaginación mejora el razonamiento, y cómo la imaginación excesiva o innecesaria afecta a la precisión y la eficiencia. Para respaldar este análisis, presentamos AVIC, un marco adaptativo en tiempo de prueba con modelos del mundo que razona explícitamente sobre la suficiencia de la evidencia visual actual antes de invocar y escalar selectivamente la imaginación visual. En varios puntos de referencia de razonamiento espacial (SAT, MMSI) y un punto de referencia de navegación embodada (R2R), nuestros resultados revelan escenarios claros donde la imaginación es crítica, marginal o perjudicial, y muestran que el control selectivo puede igualar o superar a las estrategias de imaginación fija con sustancialmente menos llamadas al modelo del mundo y tokens de lenguaje. En conjunto, nuestros hallazgos subrayan la importancia de analizar y controlar la imaginación en tiempo de prueba para un razonamiento espacial eficiente y fiable.
English
Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.
PDF72February 11, 2026