주의를 나침반으로: 추론 모델에서 프로세스 감독 강화학습을 위한 효율적 탐색
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
September 30, 2025
저자: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 있어서 놀라운 성과를 보여주고 있습니다. 그 중에서도 과정 지도 강화 학습(Process-Supervised RL, PSRL)은 결과 기반 RL에 비해 더 효과적인 패러다임으로 부상하고 있습니다. 그러나 기존의 PSRL 접근법은 분기 위치와 샘플링 측면에서 탐색 효율성이 제한적이라는 문제를 안고 있습니다. 본 논문에서는 추론 모델을 위한 효율적인 탐색을 가능하게 하는 새로운 PSRL 프레임워크(AttnRL)를 소개합니다. 높은 어텐션 점수를 보이는 단계가 추론 행동과 상관관계가 있다는 예비 관찰에 기반하여, 우리는 높은 값을 가진 위치에서 분기하는 방식을 제안합니다. 또한, 문제의 난이도와 이전 배치 크기를 고려한 적응형 샘플링 전략을 개발하여 전체 훈련 배치가 0이 아닌 이점 값을 유지하도록 합니다. 샘플링 효율성을 더욱 개선하기 위해, PSRL을 위한 1단계 오프-폴리시 훈련 파이프라인을 설계했습니다. 여러 도전적인 수학적 추론 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 성능과 샘플링 및 훈련 효율성 측면에서 기존 접근법을 일관되게 능가함을 입증했습니다.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the
reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL
(PSRL) has emerged as a more effective paradigm compared to outcome-based RL.
However, existing PSRL approaches suffer from limited exploration efficiency,
both in terms of branching positions and sampling. In this paper, we introduce
a novel PSRL framework (AttnRL), which enables efficient exploration for
reasoning models. Motivated by preliminary observations that steps exhibiting
high attention scores correlate with reasoning behaviors, we propose to branch
from positions with high values. Furthermore, we develop an adaptive sampling
strategy that accounts for problem difficulty and historical batch size,
ensuring that the whole training batch maintains non-zero advantage values. To
further improve sampling efficiency, we design a one-step off-policy training
pipeline for PSRL. Extensive experiments on multiple challenging mathematical
reasoning benchmarks demonstrate that our method consistently outperforms prior
approaches in terms of performance and sampling and training efficiency.