ChatPaper.aiChatPaper

**언제, 얼마나 상상할 것인가: 시각적 공간 추론을 위한 월드 모델 기반 적응형 테스트 타임 스케일링** - **번역 설명:** - "When and How Much to Imagine"은 의문문 형태의 제목을 한국어 논문 제목에 자주 쓰이는 명사구 형태로 자연스럽게 변환했습니다. ("언제, 얼마나 상상할 것인가") - "Adaptive Test-Time Scaling"은 '적응형 테스트 타임 스케일링'으로, 머신러닝 분야에서 널리 쓰이는 용어를 정확히 반영했습니다. - "World Models"은 해당 연구 분야에서 통용되는 '월드 모델'로 번역했습니다. - "Visual Spatial Reasoning"은 컴퓨터 비전 및 인공지능 분야에서 일반적으로 '시각적 공간 추론'으로 번역됩니다.

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

February 9, 2026
저자: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)의 급속한 발전에도 불구하고, 시각적 공간 추론은 정답이 보이지 않거나 대체 시점에서 장면이 어떻게 나타날지에 따라 달라질 경우 여전히 신뢰할 수 없는 상태입니다. 최근 연구는 시각적 상상을 위한 세계 모델을 통해 추론을 강화하는 방식으로 이 문제를 해결하고 있지만, 언제 상상이 실제로 필요한지, 어느 정도의 상상이 유익한지, 언제 해가 되는지 등의 의문은 여전히 명확히 이해되지 않고 있습니다. 실제로 무분별한 상상은 계산량을 증가시키고 오해의 소지가 있는 증거를 도입함으로써 성능을 저하시킬 수도 있습니다. 본 연구에서는 공간 추론을 위한 제어 가능한 자원으로서 테스트 시점 시각적 상상에 대한 심층 분석을 제시합니다. 우리는 정적 시각 증거만으로 충분한 경우, 상상이 추론을 개선하는 경우, 그리고 과도하거나 불필요한 상상이 정확도와 효율성에 미치는 영향을 연구합니다. 이러한 분석을 지원하기 위해 AVIC을 도입하는데, 이는 세계 모델을 갖춘 적응형 테스트 시점 프레임워크로, 선택적으로 시각적 상상을 호출하고 확장하기 전에 현재 시각 증거의 충분성에 대해 명시적으로 추론합니다. 공간 추론 벤치마크(SAT, MMSI)와 구현된 내비게이션 벤치마크(R2R)에서 우리의 결과는 상상이 결정적이거나, 보조적이거나, 해로운 명확한 시나리오를 보여주며, 선택적 제어가 상당히 적은 세계 모델 호출과 언어 토큰으로 고정된 상상 전략과 동등하거나 더 나은 성능을 낼 수 있음을 입증합니다. 전반적으로, 우리의 연구 결과는 효율적이고 신뢰할 수 있는 공간 추론을 위해 테스트 시점 상상을 분석하고 제어하는 것의 중요성을 강조합니다.
English
Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.
PDF72February 11, 2026