Bosques Antes que Árboles: Superposición Latente para un Razonamiento Visual Eficiente
Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
January 11, 2026
Autores: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu
cs.AI
Resumen
Si bien el pensamiento en cadena dota a los Grandes Modelos de Lenguaje y Visión de capacidades de razonamiento multi-etapa, las explicaciones textuales explícitas adolecen de un cuello de botella en el ancho de banda de información, donde los detalles visuales continuos se descartan durante la tokenización discreta. Los métodos recientes de razonamiento latente intentan abordar este desafío, pero a menudo sucumben a un colapso semántico prematuro debido a objetivos autorregresivos demasiado rígidos. En este artículo, proponemos Laser, un paradigma novedoso que reformula la deducción visual mediante el Aprendizaje de Alineación Dinámica por Ventanas (DWAL). En lugar de forzar una predicción punto por punto, Laser alinea el estado latente con una ventana de validez dinámica de semántica futura. Este mecanismo impone una jerarquía cognitiva de "Bosque antes que Árboles", permitiendo al modelo mantener una superposición probabilística de características globales antes de concretar en detalles locales. Crucialmente, Laser mantiene la interpretabilidad mediante trayectorias decodificables, a la vez que estabiliza el aprendizaje no restringido mediante una Superposición de Auto-refinamiento. Experimentos exhaustivos en 6 benchmarks demuestran que Laser logra un rendimiento de vanguardia entre los métodos de razonamiento latente, superando en un 5.03% de media al sólido baseline Monet. Notablemente, alcanza estas mejoras con extrema eficiencia, reduciendo los tokens de inferencia en más de un 97%, y demuestra una generalización robusta en dominios fuera de distribución.
English
While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.