Van smal naar panoramisch perspectief: aandachtgestuurde cold-start hervormt multimodale redenering

Samenvatting

De koustart-initialisatiefase speelt een cruciale rol bij het trainen van Multimodale Grote Redeneermodellen (MLRM's), maar de onderliggende mechanismen zijn nog onvoldoende begrepen. Om deze fase te analyseren, introduceren we de Visuele Aandachtsscore (VAS), een op aandacht gebaseerde metriek die kwantificeert hoeveel een model zich op visuele tokens richt. Wij ontdekken dat redeneerprestaties sterk gecorreleerd zijn met VAS (r=0,9616): modellen met een hogere VAS bereiken aanzienlijk sterkere multimodale redeneervaardigheden. Verrassend genoeg slaagt een multimodale koustart er niet in de VAS te verhogen, wat resulteert in aandachtsverdelingen die dicht bij die van het basismodel liggen, terwijl een uitsluitend tekstuele koustart wel tot een duidelijke toename leidt. Wij duiden dit contra-intuïtieve fenomeen aan als Lui Aandachtslocalisatie. Om de causale rol ervan te valideren, ontwerpen we training-vrije interventies die direct de aandachtsallocatie tijdens inferentie moduleren, wat prestatieverbeteringen van 1-2% oplevert zonder enige hertraining. Voortbordurend op deze inzichten stellen we verder Aandacht-Gestuurd Visueel Verankeren en Reflectie (AVAR) voor, een uitgebreid koustart-raamwerk dat visueel-verankerde datasynthese, aandacht-gestuurde doelen en visueel-verankerde beloningsvorming integreert. Toegepast op Qwen2.5-VL-7B behaalt AVAR een gemiddelde winst van 7,0% over 7 multimodale redeneerbenchmarks. Ablatiestudies bevestigen verder dat elke component van AVAR stapsgewijs bijdraagt aan de algehele winst. De code, data en modellen zijn beschikbaar op https://github.com/lrlbbzl/Qwen-AVAR.

English

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

Van smal naar panoramisch perspectief: aandachtgestuurde cold-start hervormt multimodale redenering

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Samenvatting

Support