ChatPaper.aiChatPaper

Aprendizaje por Atención Reforzada

Reinforced Attention Learning

February 4, 2026
Autores: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI

Resumen

El post-entrenamiento con Aprendizaje por Refuerzo (RL) ha mejorado sustancialmente la capacidad de razonamiento en los Modelos de Lenguaje Grandes (LLM) mediante el escalado en tiempo de prueba. Sin embargo, extender este paradigma a los Modelos de Lenguaje Multimodales (MLLM) a través de racionalidades verbosas produce ganancias limitadas para la percepción e incluso puede degradar el rendimiento. Proponemos el Aprendizaje de Atención Reforzada (RAL), un marco de política de gradientes que optimiza directamente las distribuciones de atención internas en lugar de las secuencias de tokens de salida. Al cambiar la optimización de *qué* generar a *dónde* atender, RAL promueve una asignación de información efectiva y una mejor fundamentación en entradas multimodales complejas. Los experimentos en diversos benchmarks de imagen y vídeo muestran ganancias consistentes sobre GRPO y otras líneas base. Además, introducimos la Distilación de Atención en Política, demostrando que transferir comportamientos de atención latente produce una alineación multimodal más sólida que la distilación de conocimiento estándar. Nuestros resultados posicionan a las políticas de atención como una alternativa fundamentada y general para el post-entrenamiento multimodal.
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance. We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.
PDF112February 7, 2026