ChatPaper.aiChatPaper

Apprentissage par Attention Renforcée

Reinforced Attention Learning

February 4, 2026
papers.authors: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) en post-formation a considérablement amélioré le raisonnement des grands modèles de langage (LLM) via un scaling au moment du test. Cependant, l'extension de ce paradigme aux LLM multimodaux (MLLM) par le biais de rationalités verbeuses offre des gains limités pour la perception et peut même dégrader les performances. Nous proposons l'Apprentissage de l'Attention par Renforcement (RAL), un framework à gradient de politique qui optimise directement les distributions d'attention internes plutôt que les séquences de tokens en sortie. En déplaçant l'optimisation de *quoi* générer vers *où* porter son attention, RAL favorise une allocation efficace de l'information et une meilleure ancrage dans les entrées multimodales complexes. Les expériences sur divers benchmarks d'images et de vidéos montrent des gains constants par rapport à GRPO et autres méthodes de référence. Nous introduisons en outre la Distillation d'Attention sur Politique, démontrant que le transfert des comportements d'attention latents produit un alignement intermodal plus robuste que la distillation de connaissances standard. Nos résultats positionnent les politiques d'attention comme une alternative princiée et générale pour la post-formation multimodale.
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance. We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.
PDF112February 7, 2026