Versterkte Aandachtsleren
Reinforced Attention Learning
February 4, 2026
Auteurs: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI
Samenvatting
Nabewerking met Reinforcement Learning (RL) heeft het redeneervermogen van Large Language Models (LLM's) aanzienlijk verbeterd via test-time scaling. Het uitbreiden van dit paradigma naar Multimodale LLM's (MLLM's) met uitgebreide rationale levert echter beperkte winst op voor de perceptie en kan de prestaties zelfs verslechteren.
Wij stellen Reinforced Attention Learning (RAL) voor, een policy-gradient raamwerk dat direct de interne aandachtverdelingen optimaliseert in plaats van de uitvoer-tokenreeksen. Door de optimalisatie te verleggen van *wat* gegenereerd wordt naar *waar* aandacht aan besteed moet worden, bevordert RAL effectieve informatieallocatie en een verbeterde verankering in complexe multimodale invoer. Experimenten op diverse beeld- en videobenchmarks tonen consistente verbeteringen ten opzichte van GRPO en andere baseline-methoden. Verder introduceren wij On-Policy Attention Distillation, waaruit blijkt dat het overdragen van latente aandachtgedrag een sterkere cross-modale alignering oplevert dan standaard knowledge distillation. Onze resultaten positioneren aandacht-policies als een principiële en algemene alternatieve benadering voor multimodale nabewerking.
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance.
We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.