ChatPaper.aiChatPaper

Aprendizagem por Atenção Reforçada

Reinforced Attention Learning

February 4, 2026
Autores: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI

Resumo

O pós-treinamento com Aprendizagem por Reforço (RL) melhorou substancialmente a capacidade de raciocínio em Modelos de Linguagem de Grande Porte (LLMs) através da escala em tempo de teste. No entanto, estender este paradigma para MLLMs Multimodais através de racionalizações verbosas produz ganhos limitados para a perceção e pode mesmo degradar o desempenho. Propomos a Aprendizagem de Atenção Reforçada (RAL), uma estrutura de política de gradiente que otimiza diretamente as distribuições de atenção internas em vez das sequências de *tokens* de saída. Ao deslocar a otimização do *o que* gerar para o *onde* atender, a RAL promove uma alocação eficiente de informação e uma melhor ancoragem em entradas multimodais complexas. Experiências em diversos *benchmarks* de imagem e vídeo mostram ganhos consistentes face ao GRPO e outras linhas de base. Introduzimos ainda a Destilação de Atenção em Política Corrente, demonstrando que a transferência de comportamentos latentes de atenção produz um alinhamento multimodal mais robusto do que a destilação de conhecimento padrão. Os nossos resultados posicionam as políticas de atenção como uma alternativa fundamentada e geral para o pós-treinamento multimodal.
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance. We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.
PDF123February 7, 2026