ChatPaper.aiChatPaper

La atención como brújula: Exploración eficiente para el aprendizaje por refuerzo supervisado por procesos en modelos de razonamiento

Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

September 30, 2025
Autores: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI

Resumen

El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado un éxito notable en la mejora de las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs). El RL Supervisado por Procesos (PSRL) ha surgido como un paradigma más efectivo en comparación con el RL basado en resultados. Sin embargo, los enfoques existentes de PSRL adolecen de una eficiencia limitada en la exploración, tanto en términos de posiciones de ramificación como de muestreo. En este artículo, presentamos un novedoso marco de PSRL (AttnRL), que permite una exploración eficiente para modelos de razonamiento. Motivados por observaciones preliminares que indican que los pasos que exhiben puntuaciones de atención elevadas se correlacionan con comportamientos de razonamiento, proponemos ramificar desde posiciones con valores altos. Además, desarrollamos una estrategia de muestreo adaptativa que tiene en cuenta la dificultad del problema y el tamaño histórico del lote, asegurando que todo el lote de entrenamiento mantenga valores de ventaja no nulos. Para mejorar aún más la eficiencia del muestreo, diseñamos una canalización de entrenamiento fuera de política de un solo paso para PSRL. Experimentos exhaustivos en múltiples puntos de referencia desafiantes de razonamiento matemático demuestran que nuestro método supera consistentemente a los enfoques anteriores en términos de rendimiento y eficiencia de muestreo y entrenamiento.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL (PSRL) has emerged as a more effective paradigm compared to outcome-based RL. However, existing PSRL approaches suffer from limited exploration efficiency, both in terms of branching positions and sampling. In this paper, we introduce a novel PSRL framework (AttnRL), which enables efficient exploration for reasoning models. Motivated by preliminary observations that steps exhibiting high attention scores correlate with reasoning behaviors, we propose to branch from positions with high values. Furthermore, we develop an adaptive sampling strategy that accounts for problem difficulty and historical batch size, ensuring that the whole training batch maintains non-zero advantage values. To further improve sampling efficiency, we design a one-step off-policy training pipeline for PSRL. Extensive experiments on multiple challenging mathematical reasoning benchmarks demonstrate that our method consistently outperforms prior approaches in terms of performance and sampling and training efficiency.
PDF71October 1, 2025