強化注意学習
Reinforced Attention Learning
February 4, 2026
著者: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI
要旨
強化学習(RL)を用いた事後学習は、テストタイムスケーリングにより大規模言語モデル(LLM)の推論能力を大幅に改善してきた。しかし、冗長な推論過程を経てこのパラダイムをマルチモーダルLLM(MLLM)に拡張しても、知覚タスクでの向上は限定的であり、むしろ性能を低下させる場合さえある。
我々は、出力トークン系列ではなく内部の注意分布を直接最適化する政策勾配方策である**強化学習型注意学習(Reinforced Attention Learning: RAL)**を提案する。生成内容の最適化から、入力のどこに注意を向けるかの最適化へと重点を移すことで、RALは複雑なマルチモーダル入力における効率的な情報配分と、より優れた接地(grounding)を促進する。様々な画像・動画ベンチマークによる実験では、GRPOやその他のベースラインを一貫して上回る結果を示した。さらに、**オン方策注意蒸留(On-Policy Attention Distillation)**を導入し、潜在的な注意行動を転移することが、標準的な知識蒸留よりも強力なクロスモーダル連携を実現することを実証する。本結果は、注意方策をマルチモーダル事後学習における理論的で汎用的な代替手法として位置づけるものである。
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance.
We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.