ChatPaper.aiChatPaper

森より先に木あり:効率的な視覚的推論のための潜在的重ね合わせ

Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

January 11, 2026
著者: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu
cs.AI

要旨

思考連鎖(Chain-of-Thought)が大規模視覚言語モデルに多段階推論能力を付与する一方で、明示的なテキストによる論理付けは、情報伝達量のボトルネックに悩まされている。すなわち、連続的な視覚的詳細が離散的なトークン化の過程で捨象されてしまうのである。近年の潜在空間推論手法はこの課題への対応を試みているが、硬直的な自己回帰目的関数のために、意味的な早期収束に陥りがちである。本論文では、動的ウィンドウ整合学習(Dynamic Windowed Alignment Learning, DWAL)による視覚的推論の再定義を通じて、新たなパラダイム「Laser」を提案する。Laserは一点ごとの予測を強制する代わりに、潜在状態を将来の意味論の動的有効性ウィンドウと整合させる。このメカニズムは「森を見てから木を見る」という認知的階層を強制し、モデルが局所的な詳細に絞り込む前に、大域的特徴の確率的重ね合わせ状態を維持することを可能にする。決定的に、Laserはデコード可能な軌跡を通じて解釈性を維持しつつ、自己洗練型重ね合わせ(Self-Refined Superposition)により制約のない学習を安定化させる。6つのベンチマークによる広範な実験により、Laserが潜在空間推論手法の中で最先端の性能を達成し、強力なベースラインであるMonetを平均5.03%上回ることを実証した。特筆すべきは、推論時のトークン数を97%以上削減するという極めて高い効率性でこれらの性能向上を達成し、分布外領域への頑健な一般化能力も示している点である。
English
While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.
PDF103January 31, 2026