Wanneer en hoeveel te verbeelden: Adaptieve schaalaanpassing tijdens testen met wereldmodellen voor visueel ruimtelijk redeneren

Samenvatting

Ondanks snelle vooruitgang in Multimodale Grote Taalmodellen (MLLM's) blijft visueel ruimtelijk redeneren onbetrouwbaar wanneer de juiste antwoorden afhangen van hoe een scène eruit zou zien vanuit ongeziene of alternatieve gezichtspunten. Recent werk probeert dit op te lossen door redeneren aan te vullen met wereldmodellen voor visuele verbeelding, maar vragen zoals wanneer verbeelding daadwerkelijk nodig is, hoeveel ervan nuttig is, en wanneer het schadelijk wordt, blijven slecht begrepen. In de praktijk kan ongericht verbeelden de rekenkosten verhogen en zelfs de prestaties verslechteren door misleidend bewijsmateriaal te introduceren. In dit werk presenteren we een diepgaande analyse van visuele verbeelding tijdens testtijd als een controleerbare hulpbron voor ruimtelijk redeneren. We bestuderen wanneer statisch visueel bewijs voldoende is, wanneer verbeelding het redeneren verbetert, en hoe excessieve of onnodige verbeelding de nauwkeurigheid en efficiëntie beïnvloedt. Om deze analyse te ondersteunen, introduceren we AVIC, een adaptief testtijd-raamwerk met wereldmodellen dat expliciet redeneert over de toereikendheid van het huidige visuele bewijs voordat het selectief visuele verbeelding inroept en schaalt. Over ruimtelijke redeneerbenchmarks (SAT, MMSI) en een belichaamde navigatiebenchmark (R2R) heen, onthullen onze resultaten duidelijke scenario's waarin verbeelding cruciaal, marginaal of nadelig is, en tonen aan dat selectieve controle vaste verbeeldingstrategieën kan evenaren of overtreffen met aanzienlijk minder wereldmodel-aanroepen en taaltokens. Over het geheel genomen benadrukken onze bevindingen het belang van het analyseren en controleren van verbeelding tijdens testtijd voor efficiënt en betrouwbaar ruimtelijk redeneren.

English

Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.

Wanneer en hoeveel te verbeelden: Adaptieve schaalaanpassing tijdens testen met wereldmodellen voor visueel ruimtelijk redeneren

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

Samenvatting

Support