ChatPaper.aiChatPaper

Усиленное обучение с вниманием

Reinforced Attention Learning

February 4, 2026
Авторы: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI

Аннотация

Послетренировочное дообучение с подкреплением (Reinforcement Learning, RL) существенно улучшило способность к рассуждениям у больших языковых моделей (Large Language Models, LLMs) за счёт масштабирования на этапе тестирования. Однако распространение этой парадигмы на мультимодальные LLMs (Multimodal LLMs, MLLMs) через пространные вербальные обоснования даёт ограниченный выигрыш для восприятия и может даже ухудшить результаты. Мы предлагаем Обучение внимания с подкреплением (Reinforced Attention Learning, RAL) — фреймворк на основе градиента политики, который напрямую оптимизирует внутренние распределения внимания, а не последовательности выходных токенов. Смещая оптимизацию с того, *что* генерировать, на то, *куда* направлять внимание, RAL способствует эффективному распределению информации и улучшает заземление (grounding) в сложных мультимодальных входных данных. Эксперименты на различных бенчмарках с изображениями и видео показывают стабильное преимущество над GRPO и другими базовыми методами. Мы также представляем Дистилляцию внимания на основе политики (On-Policy Attention Distillation), демонстрируя, что передача латентных поведений внимания приводит к более сильному межмодальному согласованию, чем стандартная дистилляция знаний. Наши результаты позиционируют политики внимания как принципиальную и универсальную альтернативу для мультимодального пост-обучения.
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance. We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.
PDF112February 7, 2026