Floresta Antes das Árvores: Sobreposição Latente para Raciocínio Visual Eficiente

Resumo

Embora o pensamento em cadeia (Chain-of-Thought) capacite os Grandes Modelos de Linguagem e Visão com raciocínio em múltiplos passos, as racionalizações textuais explícitas sofrem com um gargalo de largura de banda de informação, no qual detalhes visuais contínuos são descartados durante a tokenização discreta. Métodos recentes de raciocínio latente tentam enfrentar este desafio, mas frequentemente sucumbem a um colapso semântico prematuro devido a objetivos autorregressivos rígidos. Neste artigo, propomos o Laser, um novo paradigma que reformula a dedução visual por meio da Aprendizagem de Alinhamento Dinâmico por Janelas (Dynamic Windowed Alignment Learning - DWAL). Em vez de forçar uma previsão ponto a ponto, o Laser alinha o estado latente com uma janela de validade dinâmica de semânticas futuras. Este mecanismo impõe uma hierarquia cognitiva de "Floresta antes das Árvores", permitindo que o modelo mantenha uma superposição probabilística de características globais antes de se concentrar em detalhes locais. Crucialmente, o Laser mantém a interpretabilidade por meio de trajetórias decodificáveis, enquanto estabiliza a aprendizagem não restrita via Superposição Autoaprimorada (Self-Refined Superposition). Experimentos extensos em 6 benchmarks demonstram que o Laser alcança um desempenho de ponta entre os métodos de raciocínio latente, superando a forte baseline Monet em 5,03% em média. Notavelmente, ele alcança esses ganhos com extrema eficiência, reduzindo os tokens de inferência em mais de 97%, ao mesmo tempo que demonstra generalização robusta para domínios fora da distribuição.

English

While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.