La Valutazione della Politica Casuale è Sufficiente per il Ragionamento dei Modelli Linguistici con Ricompense Verificabili
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
September 29, 2025
Autori: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma promettente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). I metodi attuali si basano principalmente su framework di ottimizzazione delle politiche come PPO e GRPO, che seguono un'iterazione generalizzata delle politiche alternando la valutazione del valore della politica corrente e il miglioramento della politica basato sulla valutazione. Sebbene efficaci, spesso soffrono di instabilità durante l'addestramento e di collasso della diversità, richiedendo trucchi euristici complessi e una regolazione attenta. Osserviamo che l'RLVR standard nel ragionamento matematico può essere formalizzato come un Processo Decisionale di Markov a orizzonte finito specializzato, con transizioni di stato deterministiche, dinamiche strutturate ad albero e ricompense terminali binarie. Sebbene di grande scala, la struttura sottostante è più semplice rispetto ai contesti di controllo generici per i quali sono stati sviluppati popolari algoritmi di RL (ad esempio, PPO), suggerendo che diverse tecniche sofisticate nei metodi esistenti possano essere ridotte o addirittura omesse. Basandoci su questa intuizione, dimostriamo un risultato sorprendente: l'azione ottimale può essere recuperata dalla funzione Q di una politica fissa uniformemente casuale, bypassando così il ciclo di iterazione generalizzata delle politiche e le relative euristiche. Introduciamo la Valutazione della Politica Casuale per il Ragionamento Diversificato (ROVER) per tradurre questo principio in un algoritmo pratico e scalabile per il ragionamento matematico nei LLM, un metodo RL minimalista ma altamente efficace che campiona azioni da un softmax su questi valori Q della politica uniforme. ROVER preserva la diversità durante l'addestramento, consentendo un'esplorazione sostenuta di molteplici percorsi validi. Attraverso diversi modelli di base e benchmark standard di ragionamento matematico, ROVER dimostra prestazioni superiori sia in termini di qualità (+8,2 su pass@1, +16,8 su pass@256) che di diversità (+17,6%), nonostante la sua radicale semplificazione rispetto a metodi esistenti forti e complessi.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for
improving the reasoning abilities of large language models (LLMs). Current
methods rely primarily on policy optimization frameworks like PPO and GRPO,
which follow generalized policy iteration that alternates between evaluating
the current policy's value and improving the policy based on evaluation. While
effective, they often suffer from training instability and diversity collapse,
requiring complex heuristic tricks and careful tuning. We observe that standard
RLVR in math reasoning can be formalized as a specialized finite-horizon Markov
Decision Process with deterministic state transitions, tree-structured
dynamics, and binary terminal rewards. Though large in scale, the underlying
structure is simpler than general-purpose control settings for which popular RL
algorithms (e.g., PPO) were developed, suggesting that several sophisticated
techniques in existing methods may be reduced or even omitted. Based on this
insight, we prove a surprising result: the optimal action can be recovered from
the Q-function of a fixed uniformly random policy, thereby bypassing the
generalized policy iteration loop and its associated heuristics. We introduce
Random Policy Valuation for Diverse Reasoning (ROVER) to translate this
principle into a practical and scalable algorithm for LLM math reasoning, a
minimalist yet highly effective RL method that samples actions from a softmax
over these uniform-policy Q-values. ROVER preserves diversity throughout
training, allowing sustained exploration of multiple valid pathways. Across
multiple base models and standard math reasoning benchmarks, ROVER demonstrates
superior performance in both quality (+8.2 on pass@1,
+16.8 on pass@256) and diversity (+17.6\%), despite
its radical simplification compared to strong, complicated existing methods.