Apprendimento Rafforzato con Attenzione

Abstract

L'addestramento post-allenamento con Reinforcement Learning (RL) ha migliorato sostanzialmente il ragionamento nei Large Language Model (LLM) tramite lo scaling al momento del test. Tuttavia, estendere questo paradigma ai Multimodal LLM (MLLM) attraverso rationales verbosi produce guadagni limitati per la percezione e può persino degradare le prestazioni. Proponiamo il Reinforced Attention Learning (RAL), un framework a gradienti delle politiche che ottimizza direttamente le distribuzioni di attenzione interne invece delle sequenze di token in output. Spostando l'ottimizzazione da *cosa* generare a *dove* prestare attenzione, il RAL promuove un'allocazione efficace dell'informazione e un migliore ancoraggio alla realtà (grounding) in input multimodali complessi. Esperimenti su vari benchmark di immagini e video mostrano guadagni consistenti rispetto a GRPO e altre baseline. Introduciamo inoltre l'On-Policy Attention Distillation, dimostrando che il trasferimento dei comportamenti latenti di attenzione produce un allineamento cross-modale più forte rispetto alla standard knowledge distillation. I nostri risultati propongono le politiche di attenzione come un'alternativa principiata e generale per il post-training multimodale.

English

Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance. We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.