ChatPaper.aiChatPaper

L'attention comme boussole : Exploration efficace pour l'apprentissage par renforcement supervisé par processus dans les modèles de raisonnement

Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

September 30, 2025
papers.authors: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI

papers.abstract

L'apprentissage par renforcement (Reinforcement Learning, RL) a montré des succès remarquables dans l'amélioration des capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs). L'apprentissage par renforcement supervisé par processus (Process-Supervised RL, PSRL) s'est révélé être un paradigme plus efficace par rapport à l'apprentissage par renforcement basé sur les résultats. Cependant, les approches existantes de PSRL souffrent d'une efficacité d'exploration limitée, tant en termes de positions de branchement que d'échantillonnage. Dans cet article, nous introduisons un nouveau cadre PSRL (AttnRL), qui permet une exploration efficace pour les modèles de raisonnement. Motivés par des observations préliminaires indiquant que les étapes présentant des scores d'attention élevés sont corrélées avec des comportements de raisonnement, nous proposons de brancher à partir de positions ayant des valeurs élevées. De plus, nous développons une stratégie d'échantillonnage adaptative qui prend en compte la difficulté du problème et la taille historique des lots, garantissant que l'ensemble du lot d'entraînement maintient des valeurs d'avantage non nulles. Pour améliorer encore l'efficacité de l'échantillonnage, nous concevons un pipeline d'entraînement hors politique en une étape pour le PSRL. Des expériences approfondies sur plusieurs benchmarks de raisonnement mathématique difficiles démontrent que notre méthode surpasse systématiquement les approches antérieures en termes de performance, d'efficacité d'échantillonnage et d'entraînement.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL (PSRL) has emerged as a more effective paradigm compared to outcome-based RL. However, existing PSRL approaches suffer from limited exploration efficiency, both in terms of branching positions and sampling. In this paper, we introduce a novel PSRL framework (AttnRL), which enables efficient exploration for reasoning models. Motivated by preliminary observations that steps exhibiting high attention scores correlate with reasoning behaviors, we propose to branch from positions with high values. Furthermore, we develop an adaptive sampling strategy that accounts for problem difficulty and historical batch size, ensuring that the whole training batch maintains non-zero advantage values. To further improve sampling efficiency, we design a one-step off-policy training pipeline for PSRL. Extensive experiments on multiple challenging mathematical reasoning benchmarks demonstrate that our method consistently outperforms prior approaches in terms of performance and sampling and training efficiency.
PDF71October 1, 2025