ChatPaper.aiChatPaper

Внимание как компас: эффективное исследование для RL с процессуальным надзором в моделях рассуждений

Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

September 30, 2025
Авторы: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI

Аннотация

Обучение с подкреплением (Reinforcement Learning, RL) продемонстрировало впечатляющие успехи в улучшении способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs). Процессно-ориентированное обучение с подкреплением (Process-Supervised RL, PSRL) стало более эффективной парадигмой по сравнению с подходом, основанным на результатах. Однако существующие методы PSRL страдают от ограниченной эффективности исследования, как в плане выбора точек ветвления, так и в плане сэмплирования. В данной работе мы представляем новую PSRL-структуру (AttnRL), которая обеспечивает эффективное исследование для моделей рассуждения. Основываясь на предварительных наблюдениях, что шаги с высокими показателями внимания коррелируют с поведением рассуждения, мы предлагаем ветвиться из позиций с высокими значениями. Кроме того, мы разрабатываем адаптивную стратегию сэмплирования, учитывающую сложность задачи и исторический размер батча, что гарантирует ненулевые значения преимущества для всего обучающего батча. Для дальнейшего повышения эффективности сэмплирования мы создаем одношаговый конвейер обучения с использованием off-policy подхода для PSRL. Многочисленные эксперименты на нескольких сложных наборах данных для математического рассуждения показывают, что наш метод стабильно превосходит предыдущие подходы по производительности, а также по эффективности сэмплирования и обучения.
English
Reinforcement Learning (RL) has shown remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL (PSRL) has emerged as a more effective paradigm compared to outcome-based RL. However, existing PSRL approaches suffer from limited exploration efficiency, both in terms of branching positions and sampling. In this paper, we introduce a novel PSRL framework (AttnRL), which enables efficient exploration for reasoning models. Motivated by preliminary observations that steps exhibiting high attention scores correlate with reasoning behaviors, we propose to branch from positions with high values. Furthermore, we develop an adaptive sampling strategy that accounts for problem difficulty and historical batch size, ensuring that the whole training batch maintains non-zero advantage values. To further improve sampling efficiency, we design a one-step off-policy training pipeline for PSRL. Extensive experiments on multiple challenging mathematical reasoning benchmarks demonstrate that our method consistently outperforms prior approaches in terms of performance and sampling and training efficiency.
PDF71October 1, 2025