De la Visión Estrecha a la Panorámica: La Reorientación Guiada por Atención para el Inicio en Frío en el Razonamiento Multimodal

Resumen

La etapa de inicialización en frío (cold-start) desempeña un papel fundamental en el entrenamiento de Modelos de Razonamiento Multimodal a Gran Escala (MLRM), aunque sus mecanismos aún no se comprenden suficientemente. Para analizar esta etapa, presentamos la Puntuación de Atención Visual (VAS), una métrica basada en atención que cuantifica el grado en que un modelo atiende a tokens visuales. Descubrimos que el rendimiento del razonamiento está fuertemente correlacionado con el VAS (r=0,9616): los modelos con un VAS más alto logran un razonamiento multimodal sustancialmente más sólido. Sorprendentemente, la inicialización en frío multimodal no logra elevar el VAS, lo que da como resultado distribuciones de atención cercanas a las del modelo base, mientras que la inicialización en frío exclusiva con texto conduce a un aumento claro. Denominamos a este fenómeno contraintuitivo Localización de Atención Perezosa (Lazy Attention Localization). Para validar su papel causal, diseñamos intervenciones que no requieren entrenamiento y que modulan directamente la asignación de atención durante la inferencia, logrando ganancias de rendimiento del 1-2% sin necesidad de reentrenamiento. Basándonos en estas ideas, proponemos además Anclaje y Reflexión Visual Guiados por Atención (AVAR), un marco integral de inicialización en frío que integra síntesis de datos con anclaje visual, objetivos guiados por atención y modelado de recompensas con anclaje visual. Aplicado a Qwen2.5-VL-7B, AVAR logra una ganancia promedio del 7,0% en 7 benchmarks de razonamiento multimodal. Los estudios de ablación confirman además que cada componente de AVAR contribuye de manera escalonada a las ganancias generales. El código, los datos y los modelos están disponibles en https://github.com/lrlbbzl/Qwen-AVAR.

English

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

De la Visión Estrecha a la Panorámica: La Reorientación Guiada por Atención para el Inicio en Frío en el Razonamiento Multimodal

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Resumen

Support