ChatPaper.aiChatPaper

나무보다 숲: 효율적인 시각 추론을 위한 잠재 중첩

Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

January 11, 2026
저자: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu
cs.AI

초록

체인 오브 씽크(Chain-of-Thought)가 대규모 시각-언어 모델에 다단계 추론 능력을 부여하지만, 명시적 텍스트 근거는 정보 대역폭 병목 현상을 겪으며 연속적인 시각적 세부 사항이 이산적인 토큰화 과정에서 누락됩니다. 최근의 잠재적 추론 방법들은 이러한 문제를 해결하려 시도하지만, 경직된 자기회귀적 목표 함수로 인해 의미론적 조기 붕괴에 쉽게 빠지는 경우가 많습니다. 본 논문에서는 동적 창 정렬 학습(Dynamic Windowed Alignment Learning, DWAL)을 통해 시각적 추론을 재구성하는 새로운 패러다임인 Laser를 제안합니다. Laser는 지점별 예측을 강요하는 대신, 잠재 상태를 미래 의미의 동적 타당성 창과 정렬시킵니다. 이 메커니즘은 "숲을 먼저 보고 나무를 보라"는 인지적 계층 구조를 강제하여 모델이 지역적 세부 사항으로 축소되기 전에 전역 특징의 확률적 중첩 상태를 유지할 수 있게 합니다. 특히 Laser는 디코딩 가능한 궤적을 통해 해석 가능성을 유지하면서 자기 정제 중첩(Self-Refined Superposition)을 통해 제약이 없는 학습을 안정화합니다. 6개 벤치마크에서 진행한 폭넓은 실험을 통해 Laser가 잠재적 추론 방법 중 최첨단 성능을 달성하며, 강력한 기준 모델인 Monet을 평균 5.03% 능가함을 입증했습니다. 주목할 점은 97% 이상 추론 토큰을 감소시키는 극한의 효율성으로 이러한 성능 향상을 달성한 동시에 분포 외 영역으로의 강건한 일반화 능력을 보여주었다는 것입니다.
English
While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.
PDF103January 31, 2026