Da Visão Restrita à Panorâmica: O Recomeço Guiado pela Atenção Remodela o Raciocínio Multimodal

Resumo

A fase de inicialização a frio (cold-start) desempenha um papel fundamental no treinamento de Modelos de Grande Raciocínio Multimodal (MLRMs), mas os seus mecanismos permanecem insuficientemente compreendidos. Para analisar esta fase, introduzimos o *Visual Attention Score* (VAS), uma métrica baseada em atenção que quantifica o quanto um modelo atende a *tokens* visuais. Descobrimos que o desempenho do raciocínio está fortemente correlacionado com o VAS (r=0,9616): modelos com VAS mais elevado alcançam um raciocínio multimodal substancialmente mais forte. Surpreendentemente, a inicialização a frio multimodal não consegue elevar o VAS, resultando em distribuições de atenção próximas às do modelo base, enquanto a inicialização a frio apenas com texto leva a um aumento claro. Denominamos este fenómeno contra-intuitivo de *Lazy Attention Localization* (Localização Preguiçosa da Atenção). Para validar o seu papel causal, concebemos intervenções sem treino que modulam diretamente a alocação de atenção durante a inferência, obtendo ganhos de desempenho de 1-2% sem qualquer retreino. Com base nestas perceções, propomos ainda a *Attention-Guided Visual Anchoring and Reflection* (AVAR), uma estrutura abrangente de inicialização a frio que integra a síntese de dados com ancoragem visual, objetivos guiados pela atenção e modelação de recompensas com ancoragem visual. Aplicada ao Qwen2.5-VL-7B, a AVAR alcança um ganho médio de 7,0% em 7 *benchmarks* de raciocínio multimodal. Estudos de ablação confirmam ainda que cada componente da AVAR contribui de forma incremental para os ganhos globais. O código, os dados e os modelos estão disponíveis em https://github.com/lrlbbzl/Qwen-AVAR.

English

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

Da Visão Restrita à Panorâmica: O Recomeço Guiado pela Atenção Remodela o Raciocínio Multimodal

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Resumo

Support