ChatPaper.aiChatPaper

Aandacht als Kompas: Efficiënte Verkenning voor Proces-Gesuperviseerd RL in Redeneermodellen

Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

September 30, 2025
Auteurs: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI

Samenvatting

Reinforcement Learning (RL) heeft opmerkelijke successen geboekt bij het verbeteren van de redeneervaardigheden van Large Language Models (LLMs). Process-Supervised RL (PSRL) is naar voren gekomen als een effectiever paradigma vergeleken met outcome-based RL. Bestaande PSRL-benaderingen kampen echter met beperkte verkennings efficiëntie, zowel wat betreft vertakkingsposities als sampling. In dit artikel introduceren we een nieuw PSRL-framework (AttnRL), dat efficiënte verkenning mogelijk maakt voor redeneermodellen. Geïnspireerd door voorlopige observaties dat stappen met hoge attentiescores correleren met redeneergedrag, stellen we voor om te vertakken vanuit posities met hoge waarden. Daarnaast ontwikkelen we een adaptieve samplingstrategie die rekening houdt met de moeilijkheidsgraad van het probleem en de historische batchgrootte, waardoor de hele trainingsbatch niet-nul voordeelwaarden behoudt. Om de samplingefficiëntie verder te verbeteren, ontwerpen we een one-step off-policy trainingspijplijn voor PSRL. Uitgebreide experimenten op meerdere uitdagende wiskundige redeneerbenchmarks tonen aan dat onze methode consistent beter presteert dan eerdere benaderingen wat betreft prestaties, sampling- en trainings efficiëntie.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL (PSRL) has emerged as a more effective paradigm compared to outcome-based RL. However, existing PSRL approaches suffer from limited exploration efficiency, both in terms of branching positions and sampling. In this paper, we introduce a novel PSRL framework (AttnRL), which enables efficient exploration for reasoning models. Motivated by preliminary observations that steps exhibiting high attention scores correlate with reasoning behaviors, we propose to branch from positions with high values. Furthermore, we develop an adaptive sampling strategy that accounts for problem difficulty and historical batch size, ensuring that the whole training batch maintains non-zero advantage values. To further improve sampling efficiency, we design a one-step off-policy training pipeline for PSRL. Extensive experiments on multiple challenging mathematical reasoning benchmarks demonstrate that our method consistently outperforms prior approaches in terms of performance and sampling and training efficiency.
PDF123October 1, 2025