Random Policy Evaluatie is Voldoende voor LLM Redeneren met Verifieerbare Beloningen
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
September 29, 2025
Auteurs: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI
Samenvatting
RL met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een veelbelovend paradigma voor het verbeteren van de redeneervaardigheden van grote taalmodellen (LLM's). Huidige methoden vertrouwen voornamelijk op beleidsoptimalisatiekaders zoals PPO en GRPO, die een gegeneraliseerde beleidsiteratie volgen die afwisselt tussen het evalueren van de waarde van het huidige beleid en het verbeteren van het beleid op basis van evaluatie. Hoewel effectief, lijden ze vaak aan trainingsinstabiliteit en diversiteitsverval, wat complexe heuristische trucs en zorgvuldige afstemming vereist. We observeren dat standaard RLVR in wiskundig redeneren kan worden geformaliseerd als een gespecialiseerd eindig-horizon Markov Beslissingsproces met deterministische toestandsovergangen, boomstructuur-dynamiek en binaire terminale beloningen. Hoewel grootschalig, is de onderliggende structuur eenvoudiger dan algemene besturingsinstellingen waarvoor populaire RL-algoritmen (bijv. PPO) zijn ontwikkeld, wat suggereert dat verschillende geavanceerde technieken in bestaande methoden kunnen worden verminderd of zelfs weggelaten. Op basis van dit inzicht bewijzen we een verrassend resultaat: de optimale actie kan worden hersteld uit de Q-functie van een vast uniform willekeurig beleid, waardoor de gegeneraliseerde beleidsiteratielus en de bijbehorende heuristieken worden omzeild. We introduceren Random Policy Valuation for Diverse Reasoning (ROVER) om dit principe om te zetten in een praktisch en schaalbaar algoritme voor LLM-wiskundig redeneren, een minimalistisch maar zeer effectief RL-methode die acties bemonstert vanuit een softmax over deze uniform-beleid Q-waarden. ROVER behoudt diversiteit gedurende de training, waardoor een voortdurende verkenning van meerdere geldige paden mogelijk is. Over meerdere basismodellen en standaard wiskundige redeneerbenchmarks heen toont ROVER superieure prestaties in zowel kwaliteit (+8,2 op pass@1, +16,8 op pass@256) als diversiteit (+17,6\%), ondanks de radicale vereenvoudiging vergeleken met sterke, gecompliceerde bestaande methoden.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for
improving the reasoning abilities of large language models (LLMs). Current
methods rely primarily on policy optimization frameworks like PPO and GRPO,
which follow generalized policy iteration that alternates between evaluating
the current policy's value and improving the policy based on evaluation. While
effective, they often suffer from training instability and diversity collapse,
requiring complex heuristic tricks and careful tuning. We observe that standard
RLVR in math reasoning can be formalized as a specialized finite-horizon Markov
Decision Process with deterministic state transitions, tree-structured
dynamics, and binary terminal rewards. Though large in scale, the underlying
structure is simpler than general-purpose control settings for which popular RL
algorithms (e.g., PPO) were developed, suggesting that several sophisticated
techniques in existing methods may be reduced or even omitted. Based on this
insight, we prove a surprising result: the optimal action can be recovered from
the Q-function of a fixed uniformly random policy, thereby bypassing the
generalized policy iteration loop and its associated heuristics. We introduce
Random Policy Valuation for Diverse Reasoning (ROVER) to translate this
principle into a practical and scalable algorithm for LLM math reasoning, a
minimalist yet highly effective RL method that samples actions from a softmax
over these uniform-policy Q-values. ROVER preserves diversity throughout
training, allowing sustained exploration of multiple valid pathways. Across
multiple base models and standard math reasoning benchmarks, ROVER demonstrates
superior performance in both quality (+8.2 on pass@1,
+16.8 on pass@256) and diversity (+17.6\%), despite
its radical simplification compared to strong, complicated existing methods.