LaViT: 潜在視覚思考のアライメントによるマルチモーダル推論
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
January 15, 2026
著者: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung
cs.AI
要旨
現在のマルチモーダル潜在推論は、外部の監督(補助画像など)に依存することが多く、視覚的注意の内在的ダイナミクスを無視しがちである。本研究では、蒸留における重要な「知覚ギャップ」を明らかにする:学生モデルは、教師のテキスト出力を模倣しながらも、根本的に異なる視覚領域に注意を向けることが頻繁にあり、実質的に接地された知覚ではなく言語事前確率に依存している。この問題を解決するため、我々は静的な埋め込みではなく潜在的な視覚的思考を整合させるフレームワークLaViTを提案する。LaViTは、テキスト生成前に教師の視覚的意味と注意軌跡を自己回帰的に再構築することを学生モデルに強制し、ショートカット学習を防ぐためのカリキュラム感覚ゲート機構を採用する。大規模な実験により、LaViTが視覚的接地を大幅に強化し、複雑な推論タスクで最大+16.9%の向上を達成し、コンパクトな3Bモデルが大規模なオープンソース版やGPT-4oなどの専有モデルを凌駕することを実証した。
English
Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.