강화 주의 학습
Reinforced Attention Learning
February 4, 2026
저자: Bangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
cs.AI
초록
강화 학습(RL)을 활용한 사후 훈련은 테스트 시간 스케일링을 통해 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켜 왔습니다. 그러나 이러한 패러다임을 다중 모달 LLM(MLLM)으로 확장하고자 장황한 근거 생성 방식을 적용할 경우, 인식 능력 향상에 제한적인 효과만 보일 뿐만 아니라 오히려 성능 저하를 초래하기도 합니다.
본 논문에서는 출력 토큰 시퀀스가 아닌 내부 주의 분포를 직접 최적화하는 정책 경사 기반 프레임워크인 강화 주의 학습(RAL)을 제안합니다. '무엇을 생성할 것인가'에서 '어디에 주의를 기울일 것인가'로 최적화 대상을 전환함으로써, RAL은 복잡한 다중 모달 입력에서 효과적인 정보 할당과 개선된 기반 확립을 촉진합니다. 다양한 이미지 및 비디오 벤치마크에서의 실험 결과, RAL이 GRPO 및 기타 비교 모델 대비 일관된 성능 향상을 보였습니다. 또한 온-정책 주의 지식 증류를 도입하여, 잠재적 주의 행동을 전이하는 것이 표준 지식 증류보다 강력한 교차 모달 정렬을 가능하게 함을 입증했습니다. 본 연구의 결과는 주의 정책이 다중 모달 사후 훈련을 위한 원칙적이고 일반화 가능한 대안이 될 수 있음을 보여줍니다.
English
Post-training with Reinforcement Learning (RL) has substantially improved reasoning in Large Language Models (LLMs) via test-time scaling. However, extending this paradigm to Multimodal LLMs (MLLMs) through verbose rationales yields limited gains for perception and can even degrade performance.
We propose Reinforced Attention Learning (RAL), a policy-gradient framework that directly optimizes internal attention distributions rather than output token sequences. By shifting optimization from what to generate to where to attend, RAL promotes effective information allocation and improved grounding in complex multimodal inputs. Experiments across diverse image and video benchmarks show consistent gains over GRPO and other baselines. We further introduce On-Policy Attention Distillation, demonstrating that transferring latent attention behaviors yields stronger cross-modal alignment than standard knowledge distillation. Our results position attention policies as a principled and general alternative for multimodal post-training.