L'attenzione come bussola: esplorazione efficiente per il RL supervisionato da processi nei modelli di ragionamento
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
September 30, 2025
Autori: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI
Abstract
Il Reinforcement Learning (RL) ha dimostrato un notevole successo nel potenziare le capacità di ragionamento dei Large Language Models (LLMs). Il Process-Supervised RL (PSRL) è emerso come un paradigma più efficace rispetto al RL basato sui risultati. Tuttavia, gli approcci PSRL esistenti soffrono di una limitata efficienza nell'esplorazione, sia in termini di posizioni di ramificazione che di campionamento. In questo articolo, introduciamo un nuovo framework PSRL (AttnRL), che consente un'esplorazione efficiente per i modelli di ragionamento. Motivati da osservazioni preliminari che mostrano come i passaggi con punteggi di attenzione elevati siano correlati a comportamenti di ragionamento, proponiamo di ramificare dalle posizioni con valori alti. Inoltre, sviluppiamo una strategia di campionamento adattativa che tiene conto della difficoltà del problema e della dimensione storica del batch, garantendo che l'intero batch di training mantenga valori di vantaggio non nulli. Per migliorare ulteriormente l'efficienza del campionamento, progettiamo una pipeline di training off-policy a un passo per il PSRL. Esperimenti estesi su molteplici benchmark di ragionamento matematico dimostrano che il nostro metodo supera costantemente gli approcci precedenti in termini di prestazioni, efficienza di campionamento e di training.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the
reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL
(PSRL) has emerged as a more effective paradigm compared to outcome-based RL.
However, existing PSRL approaches suffer from limited exploration efficiency,
both in terms of branching positions and sampling. In this paper, we introduce
a novel PSRL framework (AttnRL), which enables efficient exploration for
reasoning models. Motivated by preliminary observations that steps exhibiting
high attention scores correlate with reasoning behaviors, we propose to branch
from positions with high values. Furthermore, we develop an adaptive sampling
strategy that accounts for problem difficulty and historical batch size,
ensuring that the whole training batch maintains non-zero advantage values. To
further improve sampling efficiency, we design a one-step off-policy training
pipeline for PSRL. Extensive experiments on multiple challenging mathematical
reasoning benchmarks demonstrate that our method consistently outperforms prior
approaches in terms of performance and sampling and training efficiency.