ChatPaper.aiChatPaper

Verstärktes Aufmerksamkeitslernen

Reinforced Attention Learning

February 4, 2026
papers.authors: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI

papers.abstract

Nachschulung mit Verstärkungslernen (Reinforcement Learning, RL) hat das logische Denken in großen Sprachmodellen (Large Language Models, LLMs) durch Testzeit-Skalierung erheblich verbessert. Die Übertragung dieses Paradigmas auf multimodale LLMs (MLLMs) über ausführliche Begründungen erzielt jedoch nur begrenzte Gewinne für die Wahrnehmung und kann die Leistung sogar verschlechtern. Wir schlagen Reinforced Attention Learning (RAL) vor, ein Policy-Gradienten-Framework, das direkt die internen Aufmerksamkeitsverteilungen optimiert, anstatt die Ausgabetoken-Sequenzen. Indem die Optimierung von *was* generiert wird auf *wo* die Aufmerksamkeit gelenkt wird verlagert wird, fördert RAL eine effektive Informationszuweisung und verbesserte Verankerung in komplexen multimodalen Eingaben. Experimente über diverse Bild- und Video-Benchmarks zeigen konsistente Verbesserungen gegenüber GRPO und anderen Baseline-Methoden. Wir führen zudem On-Policy Attention Distillation ein und zeigen, dass die Übertragung latenter Aufmerksamkeitsverhalten eine stärkere cross-modale Ausrichtung bewirkt als standardmäßige Wissensdistillation. Unsere Ergebnisse positionieren Aufmerksamkeits-Policies als prinzipielle und allgemeine Alternative für multimodales Nachschultraining.
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance. We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.
PDF112February 7, 2026