Quando e Quanto Imaginar: Escalonamento Adaptativo em Tempo de Teste com Modelos de Mundo para Raciocínio Espacial Visual

Resumo

Apesar dos rápidos avanços nos Modelos de Linguagem Multimodais de Grande Porte (MLLMs), o raciocínio espacial visual continua pouco confiável quando as respostas corretas dependem de como uma cena apareceria sob pontos de vista não observados ou alternativos. Trabalhos recentes abordam este problema aumentando o raciocínio com modelos de mundo para imaginação visual, mas questões como quando a imaginação é realmente necessária, qual a quantidade benéfica e quando ela se torna prejudicial permanecem pouco compreendidas. Na prática, a imaginação indiscriminada pode aumentar a computação e até mesmo degradar o desempenho ao introduzir evidências enganosas. Neste trabalho, apresentamos uma análise aprofundada da imaginação visual em tempo de teste como um recurso controlável para o raciocínio espacial. Estudamos quando a evidência visual estática é suficiente, quando a imaginação melhora o raciocínio e como a imaginação excessiva ou desnecessária afeta a precisão e a eficiência. Para sustentar esta análise, introduzimos o AVIC, uma estrutura adaptativa de tempo de teste com modelos de mundo que raciocina explicitamente sobre a suficiência da evidência visual atual antes de invocar e dimensionar seletivamente a imaginação visual. Através de benchmarks de raciocínio espacial (SAT, MMSI) e um benchmark de navegação incorporada (R2R), nossos resultados revelam cenários claros onde a imaginação é crítica, marginal ou prejudicial, e mostram que o controle seletivo pode igualar ou superar estratégias de imaginação fixa com substancialmente menos chamadas ao modelo de mundo e tokens de linguagem. No geral, nossas descobertas destacam a importância de analisar e controlar a imaginação em tempo de teste para um raciocínio espacial eficiente e confiável.

English

Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.