Лес до деревьев: латентная суперпозиция для эффективного визуального рассуждения
Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
January 11, 2026
Авторы: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu
cs.AI
Аннотация
В то время как метод Chain-of-Thought наделяет большие визуально-языковые модели способностью к многошаговым рассуждениям, явные текстовые обоснования страдают от узкого места информационной пропускной способности, когда непрерывные визуальные детали теряются в процессе дискретной токенизации. Новейшие методы латентных рассуждений пытаются решить эту проблему, но часто становятся жертвой преждевременного семантического коллапса из-за жестких авторегрессионных целей. В данной статье мы предлагаем Laser — новую парадигму, которая переформулирует визуальную дедукцию через обучение динамическому оконному выравниванию (Dynamic Windowed Alignment Learning, DWAL). Вместо принудительного поточечного предсказания Laser выравнивает латентное состояние с динамическим окном валидности будущей семантики. Этот механизм обеспечивает когерархию «сначала лес, потом деревья», позволяя модели сохранять вероятностную суперпозицию глобальных признаков до сужения к локальным деталям. Ключевым моментом является то, что Laser сохраняет интерпретируемость через декодируемые траектории, стабилизируя неограниченное обучение с помощью самосовершенствующейся суперпозиции (Self-Refined Superposition). Многочисленные эксперименты на 6 бенчмарках демонстрируют, что Laser достигает наилучших результатов среди методов латентных рассуждений, превосходя сильный базовый метод Monet в среднем на 5.03%. Примечательно, что эти результаты достигаются с высокой эффективностью — количество токенов при выводе сокращается более чем на 97%, при этом демонстрируется устойчивая обобщающая способность к данным вне распределения.
English
While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.