Dalla visione ristretta a quella panoramica: il riavvio guidato dall'attenzione rimodella il ragionamento multimodale

Abstract

La fase di inizializzazione cold-start svolge un ruolo cruciale nell'addestramento dei Modelli Multimodali di Ragionamento Su larga scala (MLRMs), sebbene i suoi meccanismi rimangano insufficientemente compresi. Per analizzare questa fase, introduciamo il Visual Attention Score (VAS), una metrica basata sull'attenzione che quantifica quanto un modello si concentra sui token visivi. Rileviamo che le prestazioni nel ragionamento sono fortemente correlate con il VAS (r=0,9616): i modelli con VAS più elevato ottengono capacità di ragionamento multimodale sostanzialmente superiori. Sorprendentemente, il cold-start multimodale non riesce ad elevare il VAS, producendo distribuzioni di attenzione simili al modello base, mentre il cold-start esclusivamente testuale determina un aumento significativo. Definiamo questo fenomeno controintuitivo Localizzazione Pigra dell'Attenzione (Lazy Attention Localization). Per verificarne il ruolo causale, progettiamo interventi senza addestramento che modulano direttamente l'allocazione dell'attenzione durante l'inferenza, ottenendo miglioramenti prestazionali dell'1-2% senza alcun riaddestramento. Sulla base di queste intuizioni, proponiamo ulteriormente l'Ancoraggio e Riflessione Visiva Guidati dall'Attenzione (AVAR), un framework cold-start completo che integra sintesi di dati ancorati al visivo, obiettivi guidati dall'attenzione e modellazione di reward ancorata al visivo. Applicato a Qwen2.5-VL-7B, AVAR ottiene un miglioramento medio del 7,0% su 7 benchmark di ragionamento multimodale. Studi di ablazione confermano inoltre che ogni componente di AVAR contribuisce incrementalmente ai guadagni complessivi. Il codice, i dati e i modelli sono disponibili su https://github.com/lrlbbzl/Qwen-AVAR.

English

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

Dalla visione ristretta a quella panoramica: il riavvio guidato dall'attenzione rimodella il ragionamento multimodale

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Abstract

Support