Prima la Foresta Poi gli Alberi: Sovrapposizione Latente per un Ragionamento Visivo Efficiente

Abstract

Mentre il ragionamento a catena (Chain-of-Thought) potenzia i grandi modelli visione-linguaggio con ragionamenti multi-step, le giustificazioni testuali esplicite soffrono di un collo di bottiglia nella banda passante informativa, in cui i dettagli visivi continui vengono scartati durante la tokenizzazione discreta. I recenti metodi di ragionamento latente tentano di affrontare questa sfida, ma spesso cadono vittima di un collasso semantico prematuro a causa di obiettivi autoregressivi rigidi. In questo articolo, proponiamo Laser, un nuovo paradigma che riformula la deduzione visiva tramite l'Apprendimento di Allineamento Dinamico a Finestra (Dynamic Windowed Alignment Learning, DWAL). Invece di forzare una previsione punto per punto, Laser allinea lo stato latente con una finestra di validità dinamica delle semantiche future. Questo meccanismo impone una gerarchia cognitiva "Foresta-prima-degli-Alberi", consentendo al modello di mantenere una sovrapposizione probabilistica di caratteristiche globali prima di restringersi ai dettagli locali. Fondamentalmente, Laser mantiene l'interpretabilità tramite traiettorie decodificabili, stabilizzando al contempo l'apprendimento non vincolato tramite Sovrapposizione Auto-Affinata (Self-Refined Superposition). Esperimenti estesi su 6 benchmark dimostrano che Laser raggiunge prestazioni allo stato dell'arte tra i metodi di ragionamento latente, superando di una media del 5,03% il solido baseline Monet. Notevolmente, ottiene questi vantaggi con estrema efficienza, riducendo i token di inferenza di oltre il 97%, dimostrando al contempo una robusta generalizzazione a domini fuori distribuzione.

English

While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.

Prima la Foresta Poi gli Alberi: Sovrapposizione Latente per un Ragionamento Visivo Efficiente

Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

Abstract

Support