ChatPaper.aiChatPaper

Forêt avant les arbres : Superposition latente pour un raisonnement visuel efficace

Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

January 11, 2026
papers.authors: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu
cs.AI

papers.abstract

Si le raisonnement en chaîne (Chain-of-Thought) dote les grands modèles vision-langage d'une capacité de raisonnement étape par étape, les justifications textuelles explicites souffrent d'un goulot d'étranglement informationnel, où les détails visuels continus sont perdus lors de la tokenisation discrète. Les méthodes récentes de raisonnement latent tentent de résoudre ce problème, mais succombent souvent à un effondrement sémantique prématuré dû à des objectifs autogressifs trop rigides. Dans cet article, nous proposons Laser, un nouveau paradigme qui reformule la déduction visuelle via l'Apprentissage d'Alignement Dynamique par Fenêtrage (Dynamic Windowed Alignment Learning, DWAL). Au lieu de forcer une prédiction point par point, Laser aligne l'état latent avec une fenêtre de validité dynamique des sémantiques futures. Ce mécanisme impose une hiérarchie cognitive « Forêt avant les Arbres », permettant au modèle de maintenir une superposition probabiliste des caractéristiques globales avant de se concentrer sur les détails locaux. Fait crucial, Laser préserve l'interprétabilité via des trajectoires décodables tout en stabilisant l'apprentissage non contraint par une Superposition Auto-affinée. Des expériences poussées sur 6 benchmarks démontrent que Laser atteint des performances à l'état de l'art parmi les méthodes de raisonnement latent, dépassant la base de référence robuste Monet de 5,03 % en moyenne. Notamment, il obtient ces gains avec une efficacité extrême, réduisant les tokens d'inférence de plus de 97 %, tout en faisant preuve d'une généralisation robuste à des domaines hors distribution.
English
While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.
PDF103January 31, 2026