De la vision étroite à la vision panoramique : Le remodelage du raisonnement multimodal par l'attention guidée en contexte de démarrage à froid

Résumé

La phase d'initialisation à froid joue un rôle crucial dans l'entraînement des Modèles de Raisonnement Large Multimodaux (MLRM), mais ses mécanismes restent mal compris. Pour analyser cette étape, nous introduisons le Score d'Attention Visuelle (VAS), une métrique basée sur l'attention qui quantifie le degré auquel un modèle se concentre sur les tokens visuels. Nous constatons que les performances en raisonnement sont fortement corrélées avec le VAS (r=0,9616) : les modèles avec un VAS plus élevé obtiennent un raisonnement multimodal nettement plus performant. De manière surprenante, l'initialisation à froid multimodale ne parvient pas à augmenter le VAS, ce qui donne des distributions d'attention proches de celles du modèle de base, tandis que l'initialisation à froid sur texte seul entraîne une augmentation nette. Nous nommons ce phénomène contre-intuitif la Localisation Paresseuse de l'Attention. Pour valider son rôle causal, nous concevons des interventions sans entraînement qui modulent directement l'allocation de l'attention lors de l'inférence, permettant des gains de performance de 1 à 2 % sans aucun réentraînement. En nous appuyant sur ces observations, nous proposons ensuite l'Ancrage Visuel Guidé par l'Attention et la Réflexion (AVAR), un cadre complet d'initialisation à froid qui intègre la synthèse de données à ancrage visuel, des objectifs guidés par l'attention et un façonnage de récompense à ancrage visuel. Appliqué à Qwen2.5-VL-7B, AVAR permet un gain moyen de 7,0 % sur 7 benchmarks de raisonnement multimodal. Des études d'ablation confirment en outre que chaque composant d'AVAR contribue de manière progressive aux gains globaux. Le code, les données et les modèles sont disponibles à l'adresse https://github.com/lrlbbzl/Qwen-AVAR.

English

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

De la vision étroite à la vision panoramique : Le remodelage du raisonnement multimodal par l'attention guidée en contexte de démarrage à froid

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Résumé

Support