Von engem zu panoramischem Blick: Aufmerksamkeitsgesteuerte Neugestaltung des multimodalen Denkens bei Kaltstart

Zusammenfassung

Die Initialisierungsphase mit Cold-Start spielt eine entscheidende Rolle beim Training multimodaler großer Reasoning-Modelle (MLRMs), doch ihre Mechanismen sind nach wie vor unzureichend verstanden. Um diese Phase zu analysieren, führen wir den Visual Attention Score (VAS) ein, eine auf Aufmerksamkeit basierende Metrik, die quantifiziert, wie stark ein Modell visuelle Tokens beachtet. Wir stellen fest, dass die Reasoning-Leistung stark mit dem VAS korreliert (r=0,9616): Modelle mit höherem VAS erreichen deutlich stärkeres multimodales Reasoning. Überraschenderweise führt ein multimodaler Cold-Start nicht zu einer Erhöhung des VAS, was zu Aufmerksamkeitsverteilungen führt, die nah am Basismodell liegen, während ein rein textbasierter Cold-Start zu einem deutlichen Anstieg führt. Wir bezeichnen dieses kontraintuitive Phänomen als Lazy Attention Localization. Um seine kausale Rolle zu validieren, entwerfen wir trainingsfreie Interventionen, die direkt die Aufmerksamkeitszuweisung während des Inferenzvorgangs modulieren und Leistungssteigerungen von 1–2 % ohne jegliches Neutraining erzielen. Aufbauend auf diesen Erkenntnissen schlagen wir weiterhin Attention-Guided Visual Anchoring and Reflection (AVAR) vor, ein umfassendes Cold-Start-Framework, das visuell verankerte Datensynthese, aufmerksamkeitsgesteuerte Zielsetzungen und visuell verankerte Belohnungsformung integriert. Angewendet auf Qwen2.5-VL-7B erzielt AVAR durchschnittlich einen Gewinn von 7,0 % über 7 multimodalen Reasoning-Benchmarks hinweg. Ablationsstudien bestätigen weiterhin, dass jede Komponente von AVAR schrittweise zu den Gesamtgewinnen beiträgt. Der Code, die Daten und die Modelle sind unter https://github.com/lrlbbzl/Qwen-AVAR verfügbar.

English

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

Von engem zu panoramischem Blick: Aufmerksamkeitsgesteuerte Neugestaltung des multimodalen Denkens bei Kaltstart

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Zusammenfassung

Support