검증 가능한 보상을 통한 LLM 추론에는 랜덤 정책 평가만으로도 충분하다
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
September 29, 2025
저자: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI
초록
검증 가능한 보상을 통한 강화학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 유망한 패러다임으로 부상하고 있습니다. 현재의 방법들은 주로 PPO와 GRPO와 같은 정책 최적화 프레임워크에 의존하며, 이는 현재 정책의 가치를 평가하고 평가를 기반으로 정책을 개선하는 일반화된 정책 반복을 따릅니다. 이러한 방법들은 효과적이지만, 종종 훈련 불안정성과 다양성 붕괴 문제를 겪으며, 복잡한 휴리스틱 기법과 세심한 튜닝을 필요로 합니다. 우리는 수학적 추론에서의 표준 RLVR이 결정론적 상태 전이, 트리 구조의 역학, 그리고 이진 종단 보상을 갖는 특수한 유한-수평선 마르코프 결정 프로세스로 공식화될 수 있음을 관찰했습니다. 규모는 크지만, 이러한 기본 구조는 PPO와 같은 인기 있는 RL 알고리즘이 개발된 일반적인 제어 설정보다 단순하여, 기존 방법에서 사용된 여러 정교한 기법들이 축소되거나 심지어 생략될 수 있음을 시사합니다. 이러한 통찰을 바탕으로, 우리는 놀라운 결과를 증명합니다: 최적의 행동은 고정된 균일 무작위 정책의 Q-함수로부터 복구될 수 있으며, 이를 통해 일반화된 정책 반복 루프와 관련된 휴리스틱을 우회할 수 있습니다. 우리는 이러한 원리를 실용적이고 확장 가능한 LLM 수학 추론 알고리즘으로 구현하기 위해 Random Policy Valuation for Diverse Reasoning(ROVER)을 소개합니다. 이는 균일 정책 Q-값에 대한 소프트맥스를 통해 행동을 샘플링하는 최소주의적이면서도 매우 효과적인 RL 방법입니다. ROVER는 훈련 전반에 걸쳐 다양성을 유지하며, 여러 유효한 경로에 대한 지속적인 탐색을 가능하게 합니다. 여러 기본 모델과 표준 수학 추론 벤치마크에서, ROVER는 강력하고 복잡한 기존 방법들과 비교하여 질적(+8.2 on pass@1, +16.8 on pass@256) 및 다양성(+17.6\%) 측면에서 우수한 성능을 보여줍니다.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for
improving the reasoning abilities of large language models (LLMs). Current
methods rely primarily on policy optimization frameworks like PPO and GRPO,
which follow generalized policy iteration that alternates between evaluating
the current policy's value and improving the policy based on evaluation. While
effective, they often suffer from training instability and diversity collapse,
requiring complex heuristic tricks and careful tuning. We observe that standard
RLVR in math reasoning can be formalized as a specialized finite-horizon Markov
Decision Process with deterministic state transitions, tree-structured
dynamics, and binary terminal rewards. Though large in scale, the underlying
structure is simpler than general-purpose control settings for which popular RL
algorithms (e.g., PPO) were developed, suggesting that several sophisticated
techniques in existing methods may be reduced or even omitted. Based on this
insight, we prove a surprising result: the optimal action can be recovered from
the Q-function of a fixed uniformly random policy, thereby bypassing the
generalized policy iteration loop and its associated heuristics. We introduce
Random Policy Valuation for Diverse Reasoning (ROVER) to translate this
principle into a practical and scalable algorithm for LLM math reasoning, a
minimalist yet highly effective RL method that samples actions from a softmax
over these uniform-policy Q-values. ROVER preserves diversity throughout
training, allowing sustained exploration of multiple valid pathways. Across
multiple base models and standard math reasoning benchmarks, ROVER demonstrates
superior performance in both quality (+8.2 on pass@1,
+16.8 on pass@256) and diversity (+17.6\%), despite
its radical simplification compared to strong, complicated existing methods.