Aufmerksamkeit als Kompass: Effiziente Exploration für prozessüberwachtes RL in Reasoning-Modellen
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
September 30, 2025
papers.authors: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI
papers.abstract
Reinforcement Learning (RL) hat bemerkenswerte Erfolge bei der Verbesserung der Denkfähigkeiten von Large Language Models (LLMs) gezeigt. Process-Supervised RL (PSRL) hat sich als effektiveres Paradigma im Vergleich zu ergebnisbasiertem RL erwiesen. Allerdings leiden bestehende PSRL-Ansätze unter begrenzter Explorationseffizienz, sowohl in Bezug auf Verzweigungspositionen als auch auf das Sampling. In diesem Artikel stellen wir ein neuartiges PSRL-Framework (AttnRL) vor, das eine effiziente Exploration für Denkmodelle ermöglicht. Motiviert durch vorläufige Beobachtungen, dass Schritte mit hohen Aufmerksamkeitswerten mit Denkverhalten korrelieren, schlagen wir vor, von Positionen mit hohen Werten zu verzweigen. Darüber hinaus entwickeln wir eine adaptive Sampling-Strategie, die die Schwierigkeit des Problems und die historische Batch-Größe berücksichtigt, um sicherzustellen, dass der gesamte Trainingsbatch nicht-null Vorteilswerte beibehält. Um die Sampling-Effizienz weiter zu verbessern, entwerfen wir eine One-Step Off-Policy-Trainingspipeline für PSRL. Umfangreiche Experimente auf mehreren anspruchsvollen mathematischen Denkbenchmarks zeigen, dass unsere Methode in Bezug auf Leistung sowie Sampling- und Trainingseffizienz durchweg frühere Ansätze übertrifft.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the
reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL
(PSRL) has emerged as a more effective paradigm compared to outcome-based RL.
However, existing PSRL approaches suffer from limited exploration efficiency,
both in terms of branching positions and sampling. In this paper, we introduce
a novel PSRL framework (AttnRL), which enables efficient exploration for
reasoning models. Motivated by preliminary observations that steps exhibiting
high attention scores correlate with reasoning behaviors, we propose to branch
from positions with high values. Furthermore, we develop an adaptive sampling
strategy that accounts for problem difficulty and historical batch size,
ensuring that the whole training batch maintains non-zero advantage values. To
further improve sampling efficiency, we design a one-step off-policy training
pipeline for PSRL. Extensive experiments on multiple challenging mathematical
reasoning benchmarks demonstrate that our method consistently outperforms prior
approaches in terms of performance and sampling and training efficiency.