Когда и сколько воображать: адаптивное масштабирование во время тестирования с мировыми моделями для визуально-пространственного мышления
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
February 9, 2026
Авторы: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal
cs.AI
Аннотация
Несмотря на быстрый прогресс в мультимодальных больших языковых моделях (MLLM), пространственное визуальное рассуждение остается ненадежным, когда правильные ответы зависят от того, как сцена выглядела бы с непредставленных или альтернативных точек обзора. Современные работы решают эту проблему, дополняя рассуждение мировыми моделями для визуального воображения, однако вопросы о том, когда воображение действительно необходимо, в каком объеме оно полезно и когда становится вредным, остаются малоизученными. На практике неразборчивое использование воображения может увеличить вычислительные затраты и даже ухудшить результаты, внося вводящие в заблуждение свидетельства. В данной работе мы представляем углубленный анализ визуального воображения во время тестирования как управляемого ресурса для пространственного рассуждения. Мы исследуем, когда статических визуальных данных достаточно, когда воображение улучшает рассуждения и как избыточное или ненужное воображение влияет на точность и эффективность. Для поддержки этого анализа мы представляем AVIC — адаптивную框架 тестирования с мировыми моделями, которая явно оценивает достаточность текущих визуальных свидетельств перед выборочным запуском и масштабированием визуального воображения. На пространственных бенчмарках рассуждений (SAT, MMSI) и бенчмарке навигации в среде (R2R) наши результаты выявляют четкие сценарии, где воображение критически важно, маргинально или пагубно, и показывают, что избирательное управление может соответствовать или превосходить стратегии с фиксированным воображением при существенно меньшем количестве обращений к мировым моделям и языковым токенам. В целом, наши результаты подчеркивают важность анализа и управления воображением во время тестирования для эффективного и надежного пространственного рассуждения.
English
Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.