Bomen in het Bos: Latente Superpositie voor Efficiënte Visuele Redenering
Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
January 11, 2026
Auteurs: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu
cs.AI
Samenvatting
Hoewel Chain-of-Thought Large Vision-Language Models voorziet van meerstaps redeneervermogen, lijden expliciete tekstuele redeneringen onder een informatiebandbreedteknelpunt, waarbij continue visuele details verloren gaan tijdens discrete tokenisatie. Recente latente redeneermethoden proberen deze uitdaging aan te pakken, maar vallen vaak ten prooi aan voortijdige semantische ineenstorting door rigide autoregressieve doelstellingen. In dit artikel stellen we Laser voor, een nieuw paradigma dat visuele deductie herformuleert via Dynamic Windowed Alignment Learning (DWAL). In plaats van een punt-voor-voorspelling af te dwingen, aligneert Laser de latente toestand met een dynamisch validiteitsvenster van toekomstige semantiek. Dit mechanisme legt een cognitieve hiërarchie van "Eerst het bos, dan de bomen" op, waardoor het model een probabilistische superpositie van globale kenmerken kan behouden alvorens zich te vernauwen tot lokale details. Cruciaal is dat Laser de interpreteerbaarheid behoudt via decodeerbare trajecten, terwijl onbeperkt leren wordt gestabiliseerd via Self-Refined Superposition. Uitgebreide experimenten op 6 benchmarks tonen aan dat Laser state-of-the-art prestaties bereikt onder latente redeneermethoden, waarbij het de sterke baseline Monet met gemiddeld 5,03% overtreft. Opmerkelijk is dat het deze winst behaalt met extreme efficiëntie, door inferentietokens met meer dan 97% te verminderen, terwijl het robuuste generalisatie naar out-of-distribution domeinen demonstreert.
English
While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.