Atenção como Bússola: Exploração Eficiente para RL Supervisionado por Processo em Modelos de Raciocínio
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
September 30, 2025
Autores: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI
Resumo
O Aprendizado por Reforço (RL) tem demonstrado sucesso notável em aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs). O RL Supervisionado por Processo (PSRL) surgiu como um paradigma mais eficaz em comparação com o RL baseado em resultados. No entanto, as abordagens existentes de PSRL sofrem com eficiência limitada de exploração, tanto em termos de posições de ramificação quanto de amostragem. Neste artigo, introduzimos um novo framework de PSRL (AttnRL), que possibilita uma exploração eficiente para modelos de raciocínio. Motivados por observações preliminares de que passos que exibem altos escores de atenção estão correlacionados com comportamentos de raciocínio, propomos ramificar a partir de posições com altos valores. Além disso, desenvolvemos uma estratégia de amostragem adaptativa que leva em consideração a dificuldade do problema e o tamanho do lote histórico, garantindo que todo o lote de treinamento mantenha valores de vantagem não nulos. Para melhorar ainda mais a eficiência de amostragem, projetamos um pipeline de treinamento off-policy de uma etapa para o PSRL. Experimentos extensivos em diversos benchmarks desafiadores de raciocínio matemático demonstram que nosso método supera consistentemente abordagens anteriores em termos de desempenho e eficiência de amostragem e treinamento.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the
reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL
(PSRL) has emerged as a more effective paradigm compared to outcome-based RL.
However, existing PSRL approaches suffer from limited exploration efficiency,
both in terms of branching positions and sampling. In this paper, we introduce
a novel PSRL framework (AttnRL), which enables efficient exploration for
reasoning models. Motivated by preliminary observations that steps exhibiting
high attention scores correlate with reasoning behaviors, we propose to branch
from positions with high values. Furthermore, we develop an adaptive sampling
strategy that accounts for problem difficulty and historical batch size,
ensuring that the whole training batch maintains non-zero advantage values. To
further improve sampling efficiency, we design a one-step off-policy training
pipeline for PSRL. Extensive experiments on multiple challenging mathematical
reasoning benchmarks demonstrate that our method consistently outperforms prior
approaches in terms of performance and sampling and training efficiency.