Bäume im Wald: Latente Überlagerung für effizientes visuelles Schließen
Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
January 11, 2026
papers.authors: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu
cs.AI
papers.abstract
Während Chain-of-Thought große visuell-sprachliche Modelle mit mehrstufigem Reasoning befähigt, leiden explizite textuelle Begründungen unter einem Informationsbandbreiten-Engpass, bei dem kontinuierliche visuelle Details während der diskreten Tokenisierung verloren gehen. Jüngste latente Reasoning-Methoden versuchen, diese Herausforderung zu bewältigen, unterliegen jedoch oft einem vorzeitigen semantischen Kollaps aufgrund starrer autoregressiver Zielvorgaben. In diesem Artikel schlagen wir Laser vor, ein neuartiges Paradigma, das visuelles Deduzieren durch Dynamic Windowed Alignment Learning (DWAL) neu formuliert. Anstatt eine punktgenaue Vorhersage zu erzwingen, richtet Laser den latenten Zustand an einem dynamischen Gültigkeitsfenster zukünftiger Semantik aus. Dieser Mechanismus erzwingt eine kognitive Hierarchie nach dem "Wald-vor-Bäume"-Prinzip, die es dem Modell ermöglicht, eine probabilistische Superposition globaler Merkmale beizubehalten, bevor es sich auf lokale Details eingrenzt. Entscheidend ist, dass Laser die Interpretierbarkeit durch decodierbare Trajektorien bewahrt, während es unbegrenztes Lernen durch Self-Refined Superposition stabilisiert. Umfangreiche Experimente auf 6 Benchmarks zeigen, dass Laser state-of-the-art Leistung unter latenten Reasoning-Methoden erreicht und die starke Baseline Monet im Durchschnitt um 5,03% übertrifft. Bemerkenswerterweise erzielt es diese Gewinne mit extremer Effizienz, reduziert Inferenz-Tokens um mehr als 97% und zeigt gleichzeitig robuste Generalisierung in Out-of-Distribution-Domänen.
English
While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.