狭視野からパノラマ視野へ:注意誘導型コールドスタートがマルチモーダル推論を再構築する
From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning
March 4, 2026
著者: Ruilin Luo, Chufan Shi, Yizhen Zhang, Cheng Yang, Songtao Jiang, Tongkun Guan, Ruizhe Chen, Ruihang Chu, Peng Wang, Mingkun Yang, Yujiu Yang, Junyang Lin, Zhibo Yang
cs.AI
要旨
マルチモーダル大規模推論モデル(MLRM)の学習において、コールドスタート初期化段階は極めて重要な役割を果たすが、そのメカニズムは十分に解明されていない。本論文ではこの段階を分析するため、視覚トークンへのモデルの注目度を定量化するアテンションベースの指標であるVisual Attention Score(VAS)を提案する。推論性能とVASには強い相関(r=0.9616)が認められ、VASが高いモデルほどマルチモーダル推論性能が大幅に向上することが明らかになった。驚くべきことに、マルチモーダル条件でのコールドスタートはVASを向上させず、ベースモデルに近いアテンション分布を示す一方、テキストのみのコールドスタートでは明確なVASの上昇が観測された。この直感に反する現象を我々はLazy Attention Localizationと命名する。その因果関係を検証するため、推論時にアテンション配分を直接制御するトレーニング不要な介入手法を設計したところ、再学習を一切行わずに1-2%の性能向上を達成した。これらの知見に基づき、視覚的アンカーに基づくデータ合成、アテンション誘導型目的関数、視覚的アンカーに基づく報酬形成を統合した総合的なコールドスタートフレームワークAVARを提案する。Qwen2.5-VL-7Bへの適用実験により、7種のマルチモーダル推論ベンチマークで平均7.0%の性能向上を実現した。削除実験により、AVARの各構成要素が段階的に全体の性能向上に寄与していることも確認された。コード、データ、モデルはhttps://github.com/lrlbbzl/Qwen-AVAR で公開している。
English
The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.