Wann und wie viel zu imaginieren ist: Adaptives Testzeit-Scaling mit Weltmodellen für visuell-räumliches Schließen
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
February 9, 2026
papers.authors: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal
cs.AI
papers.abstract
Trotz rascher Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) bleibt das visuell-räumliche Schließen unzuverlässig, wenn korrekte Antworten davon abhängen, wie eine Szene aus nicht gesehenen oder alternativen Blickwinkeln erscheinen würde. Jüngste Arbeiten adressieren dies durch eine Anreicherung des Schließens mit Weltmodellen für visuelle Imagination. Fragen wie wann Imagination tatsächlich notwendig ist, wie viel davon vorteilhaft ist und wann sie schädlich wird, sind jedoch nach wie vor kaum verstanden. In der Praxis kann wahllose Imagination den Rechenaufwand erhöhen und die Leistung sogar verschlechtern, indem sie irreführende Evidenz einführt. In dieser Arbeit präsentieren wir eine eingehende Analyse von Visualisierungen zur Laufzeit (Test-Time Visual Imagination) als eine kontrollierbare Ressource für räumliches Schließen. Wir untersuchen, wann statische visuelle Evidenz ausreicht, wann Imagination das Schließen verbessert und wie übermäßige oder unnötige Imagination Genauigkeit und Effizienz beeinflusst. Um diese Analyse zu unterstützen, führen wir AVIC ein, einen adaptiven Framework zur Laufzeit mit Weltmodellen, der explizit über die Hinlänglichkeit der aktuellen visuellen Evidenz urteilt, bevor er visuelle Imagination selektiv aufruft und skaliert. Über räumliche Schließ-Benchmarks (SAT, MMSI) und einen Benchmark für embodierte Navigation (R2R) hinweg zeigen unsere Ergebnisse klare Szenarien auf, in denen Imagination kritisch, marginal oder schädlich ist, und belegen, dass selektive Kontrolle feste Imaginationsstrategien bei deutlich weniger Weltmodell-Aufrufen und Sprach-Tokens übertreffen oder gleichziehen kann. Insgesamt unterstreichen unsere Ergebnisse die Bedeutung einer Analyse und Kontrolle von Visualisierungen zur Laufzeit für effizientes und zuverlässiges räumliches Schließen.
English
Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.