잠재 공간에서의 시각적 추론에 상상력은 아직 도움이 되지 않는다
Imagination Helps Visual Reasoning, But Not Yet in Latent Space
February 26, 2026
저자: You Li, Chi Chen, Yanghao Li, Fanhu Zeng, Kaiyu Huang, Jinan Xu, Maosong Sun
cs.AI
초록
잠재 시각 추론은 다중모드 대규모 언어 모델의 숨겨진 상태를 통해 명상함으로써 인간의 상상 과정을 모방하는 것을 목표로 한다. 시각 추론의 유망한 패러다임으로 인식되고 있지만, 그 효과를驱动하는 근본적인 메커니즘은 여전히 불분명하다. 그 효용의 진정한 원인을 규명하고자 하는 동기에서, 우리는 인과 매개 분석을 사용해 잠재 추론의 타당성을 조사한다. 우리는 이 과정을 입력을 처치로, 잠재 토큰을 매개체로, 최종 답변을 결과로 하는 인과적 사슬로 모델링한다. 우리의 연구 결과는 두 가지 중요한 단절을 밝혀낸다: (a) 입력-잠재 단절: 입력에 대한 극단적 perturbation이 잠재 토큰에는 미미한 변화만을 초래하며, 이는 잠재 토큰이 입력 시퀀스를 효과적으로 주의하지 않음을 시사한다. (b) 잠재-답변 단절: 잠재 토큰에 대한 perturbation이 최종 답변에 미치는 영향이 최소화되어, 잠재 토큰이 결과에 미치는 인과적 효과가 제한적임을 나타낸다. 더 나아가, 광범위한 프로빙 분석은 잠재 토큰이 제한된 시각 정보를 인코딩하며 높은 유사성을 보인다는 것을 밝힌다. 결과적으로, 우리는 잠재 추론의 필요성에 의문을 제기하고 CapImagine이라는 간단한 대안을 제안한다. 이는 모델이 텍스트를 사용하여 명시적으로 상상하도록 가르친다. 시각 중심 벤치마크에서의 실험은 CapImagine이 복잡한 잠재 공간 기반 모델들을 크게 능가하며, 명시적 상상을 통한 시각 추론의 우수한 잠재력을 강조한다.
English
Latent visual reasoning aims to mimic human's imagination process by meditating through hidden states of Multimodal Large Language Models. While recognized as a promising paradigm for visual reasoning, the underlying mechanisms driving its effectiveness remain unclear. Motivated to demystify the true source of its efficacy, we investigate the validity of latent reasoning using Causal Mediation Analysis. We model the process as a causal chain: the input as the treatment, the latent tokens as the mediator, and the final answer as the outcome. Our findings uncover two critical disconnections: (a) Input-Latent Disconnect: dramatic perturbations on the input result in negligible changes to the latent tokens, suggesting that latent tokens do not effectively attend to the input sequence. (b) Latent-Answer Disconnect: perturbations on the latent tokens yield minimal impact on the final answer, indicating the limited causal effect latent tokens imposing on the outcome. Furthermore, extensive probing analysis reveals that latent tokens encode limited visual information and exhibit high similarity. Consequently, we challenge the necessity of latent reasoning and propose a straightforward alternative named CapImagine, which teaches the model to explicitly imagine using text. Experiments on vision-centric benchmarks show that CapImagine significantly outperforms complex latent-space baselines, highlighting the superior potential of visual reasoning through explicit imagination.