От узкого к панорамному зрению: Управляемое вниманием преобразование многомодальных рассуждений при холодном старте

Аннотация

Этап холодного старта играет ключевую роль в обучении мультимодальных моделей с большими возможностями рассуждений (MLRM), однако его механизмы остаются недостаточно изученными. Для анализа этой стадии мы вводим показатель визуального внимания (Visual Attention Score, VAS) — метрику на основе внимания, которая количественно оценивает степень фокусировки модели на визуальных токенах. Мы обнаружили, что производительность рассуждений сильно коррелирует с VAS (r=0,9616): модели с более высоким VAS демонстрируют значительно более сильные мультимодальные рассуждения. Неожиданно оказалось, что мультимодальный холодный старт не повышает VAS, приводя к распределениям внимания, близким к базовой модели, тогда как холодный старт только на текстовых данных вызывает явный рост VAS. Мы назвали это контр-интуитивное явление «ленивой локализацией внимания» (Lazy Attention Localization). Чтобы подтвердить его причинную роль, мы разработали интервенции, не требующие дообучения, которые напрямую модулируют распределение внимания на этапе вывода, что дало прирост производительности на 1–2% без какого-либо переобучения. Основываясь на этих выводах, мы дополнительно предлагаем AVAR (Attention-Guided Visual Anchoring and Reflection) — комплексную структуру холодного старта, которая объединяет синтез данных с визуальной привязкой, цели, управляемые вниманием, и формирование вознаграждения с визуальной привязкой. Примененная к Qwen2.5-VL-7B, AVAR демонстрирует средний прирост в 7,0% по семи бенчмаркам мультимодальных рассуждений. Абляционные исследования дополнительно подтверждают, что каждый компонент AVAR вносит пошаговый вклад в общее улучшение. Код, данные и модели доступны по адресу https://github.com/lrlbbzl/Qwen-AVAR.

English

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1-2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

От узкого к панорамному зрению: Управляемое вниманием преобразование многомодальных рассуждений при холодном старте

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Аннотация

Support