ChatPaper.aiChatPaper

PRL: 프로세스 보상 학습이 대규모 언어 모델의 추론 능력을 향상시키고 추론 경계를 확장한다

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

January 15, 2026
저자: Jiarui Yao, Ruida Wang, Tong Zhang
cs.AI

초록

대규모 언어 모델(LLM)의 추론 능력 향상은 최근 지속적으로 논의되는 주제입니다. 그러나 대부분의 관련 연구는 궤적 수준의 결과 보상에 기반하여, 추론 과정 중 세밀한 감독이 부족한 실정입니다. 과정 신호를 결합하여 LLM을 최적화하려는 기존 훈련 프레임워크들도 MCTS나 별도의 보상 모델 훈련과 같은 지루한 추가 단계에 크게 의존하여 훈련 효율성을 저해하고 있습니다. 더욱이 과정 신호 설계의 직관적 배경에는 엄밀한 이론적 근거가 부족해 최적화 메커니즘에 대한 이해가 불명확한 실패입니다. 본 논문에서는 엔트로피 정규화 강화 학습 목표를 중간 단계로 분해하고, 이에 따라 모델에 할당될 수 있는 엄밀한 과정 보상을 갖는 Process Reward Learning(PRL)을 제안합니다. 이론적 동기에서 출발하여, 우리는 본질적으로 보상 최대화와 정책 모델과 참조 모델 간의 KL-발산 패널티 항의 목표와 동등한 PRL의 공식을 유도합니다. 그러나 PRL은 결과 보상을 과정 감독 신호로 전환하여 RL 최적화 과정 중 탐색을 더 효과적으로 안내할 수 있습니다. 실험 결과를 통해 PRL이 평균 @n으로 측정된 LLM의 추론 능력 평균 성능을 향상시킬 뿐만 아니라, pass @n 지표를 향상시켜 추론 한계를 확장함을 입증합니다. 광범위한 실험을 통해 PRL의 효과성과 일반화 가능성을 검증하였습니다.
English
Improving the reasoning abilities of Large Language Models (LLMs) has been a continuous topic recently. But most relevant works are based on outcome rewards at the trajectory level, missing fine-grained supervision during the reasoning process. Other existing training frameworks that try to combine process signals together to optimize LLMs also rely heavily on tedious additional steps like MCTS, training a separate reward model, etc., doing harm to the training efficiency. Moreover, the intuition behind the process signals design lacks rigorous theoretical support, leaving the understanding of the optimization mechanism opaque. In this paper, we propose Process Reward Learning (PRL), which decomposes the entropy regularized reinforcement learning objective into intermediate steps, with rigorous process rewards that could be assigned to models accordingly. Starting from theoretical motivation, we derive the formulation of PRL that is essentially equivalent to the objective of reward maximization plus a KL-divergence penalty term between the policy model and a reference model. However, PRL could turn the outcome reward into process supervision signals, which helps better guide the exploration during RL optimization. From our experiment results, we demonstrate that PRL not only improves the average performance for LLMs' reasoning ability measured by average @ n, but also broadens the reasoning boundary by improving the pass @ n metric. Extensive experiments show the effectiveness of PRL could be verified and generalized.
PDF51January 17, 2026