Quando e Quanto Immaginare: Scalatura Adattiva al Momento del Test con Modelli del Mondo per il Ragionamento Spaziale Visivo

Abstract

Nonostante i rapidi progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLM), il ragionamento spaziale visivo rimane inaffidabile quando le risposte corrette dipendono da come una scena apparirebbe da punti di vista non osservati o alternativi. Recenti lavori affrontano questo problema potenziando il ragionamento con modelli del mondo per l'immaginazione visiva, ma questioni come quando l'immaginazione sia effettivamente necessaria, quanta ne sia benefica e quando diventi dannosa rimangono poco comprese. Nella pratica, un'immaginazione indiscriminata può aumentare il costo computazionale e persino degradare le prestazioni introducendo evidenze fuorvianti. In questo lavoro, presentiamo un'analisi approfondita dell'immaginazione visiva al momento del test come risorsa controllabile per il ragionamento spaziale. Studiamo quando l'evidenza visiva statica è sufficiente, quando l'immaginazione migliora il ragionamento e come un'immaginazione eccessiva o non necessaria influisca su accuratezza ed efficienza. Per supportare questa analisi, introduciamo AVIC, un framework adattativo per il test-time con modelli del mondo che ragiona esplicitamente sulla sufficienza dell'evidenza visiva corrente prima di invocare e scalare selettivamente l'immaginazione visiva. Su benchmark di ragionamento spaziale (SAT, MMSI) e un benchmark di navigazione embodied (R2R), i nostri risultati rivelano scenari chiari in cui l'immaginazione è cruciale, marginale o dannosa, e mostrano che un controllo selettivo può eguagliare o superare le strategie di immaginazione fisse con un numero sostanzialmente inferiore di chiamate al modello del mondo e di token linguistici. Nel complesso, i nostri risultati evidenziano l'importanza di analizzare e controllare l'immaginazione al momento del test per un ragionamento spaziale efficiente e affidabile.

English

Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.

Quando e Quanto Immaginare: Scalatura Adattiva al Momento del Test con Modelli del Mondo per il Ragionamento Spaziale Visivo

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

Abstract

Support