ChatPaper.aiChatPaper

검증 가능한 보상을 통한 강화 학습은 기본 LLM에서 올바른 추론을 암묵적으로 장려한다

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

June 17, 2025
저자: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI

초록

검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 발전시키기 위한 유망한 패러다임으로 부상했습니다. 그러나 RLVR의 효용성에 대한 중요한 역설이 존재합니다: RLVR로 조정된 모델들은 종종 솔루션 탐색을 위한 Pass@K 지표에서 기본 모델보다 낮은 성능을 보이며, 이는 RLVR이 단순히 기존 추론 경로를 재가중함으로써 추론 다양성을 희생한다는 가설로 이어집니다. 본 연구에서는 이 모순을 해결하기 위해 문제의 근원을 규명했습니다: Pass@K 지표 자체가 추론을 측정하는 데 있어 결함이 있는데, 이는 부정확하거나 불완전한 사고의 연쇄(CoT)에서 비롯된 정답에도 점수를 부여하기 때문입니다. 이를 해결하기 위해, 우리는 더 정밀한 평가 지표인 CoT-Pass@K를 도입했습니다. 이 지표는 추론 경로와 최종 답변이 모두 정확해야 점수를 부여합니다. 또한, 우리는 RLVR이 기존의 강화 학습과 달리 논리적 정합성을 유도하도록 고유하게 구조화되어 있음을 형식화하는 새로운 이론적 기반을 제공합니다. 실험 결과는 이를 뒷받침합니다: CoT-Pass@K를 사용하여 RLVR이 모든 K 값에 대해 올바른 추론의 일반화를 유도할 수 있음을 관찰했습니다. 더 나아가, 학습 동역학을 분석한 결과, 이러한 향상된 추론 능력은 학습 과정 초기에 나타나며 부드럽게 일반화됨을 발견했습니다. 본 연구는 RLVR의 역할에 대한 명확한 관점을 제공하고, 이를 평가하기 위한 더 신뢰할 수 있는 방법을 제시하며, 기계 추론을 진정으로 발전시킬 수 있는 잠재력을 확인합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned models often underperform their base models on the Pass@K metric for solution-finding, leading to the hypothesis that RLVR merely re-weights existing reasoning paths at the cost of reasoning diversity. In this work, we resolve this contradiction by identifying the source of the problem: the Pass@K metric itself is a flawed measure of reasoning, as it credits correct final answers that probably arise from inaccurate or incomplete chains of thought (CoTs). To address this, we introduce a more precise evaluation metric, CoT-Pass@K, which mandates that both the reasoning path and the final answer be correct. We provide a new theoretical foundation that formalizes how RLVR, unlike traditional RL, is uniquely structured to incentivize logical integrity. Our empirical results are supportive: using CoT-Pass@K, we observe that RLVR can incentivize the generalization of correct reasoning for all values of K. Furthermore, by analyzing the training dynamics, we find that this enhanced reasoning capability emerges early in the training process and smoothly generalizes. Our work provides a clear perspective on the role of RLVR, offers a more reliable method for its evaluation, and confirms its potential to genuinely advance machine reasoning.
PDF428June 18, 2025