Avaliação de Política Aleatória é Suficiente para Raciocínio de LLM com Recompensas Verificáveis
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
September 29, 2025
Autores: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI
Resumo
O RL com Recompensas Verificáveis (RLVR) emergiu como um paradigma promissor para melhorar as habilidades de raciocínio de grandes modelos de linguagem (LLMs). Os métodos atuais dependem principalmente de frameworks de otimização de políticas como PPO e GRPO, que seguem uma iteração de política generalizada que alterna entre avaliar o valor da política atual e melhorar a política com base na avaliação. Embora eficazes, eles frequentemente sofrem com instabilidade no treinamento e colapso de diversidade, exigindo truques heurísticos complexos e ajustes cuidadosos. Observamos que o RLVR padrão em raciocínio matemático pode ser formalizado como um Processo de Decisão Markoviano de horizonte finito especializado, com transições de estado determinísticas, dinâmica estruturada em árvore e recompensas terminais binárias. Embora em grande escala, a estrutura subjacente é mais simples do que os cenários de controle de propósito geral para os quais os algoritmos populares de RL (por exemplo, PPO) foram desenvolvidos, sugerindo que várias técnicas sofisticadas nos métodos existentes podem ser reduzidas ou até mesmo omitidas. Com base nessa percepção, provamos um resultado surpreendente: a ação ótima pode ser recuperada a partir da função Q de uma política uniformemente aleatória fixa, contornando assim o loop de iteração de política generalizada e suas heurísticas associadas. Introduzimos a Avaliação de Política Aleatória para Raciocínio Diverso (ROVER) para traduzir esse princípio em um algoritmo prático e escalável para raciocínio matemático em LLMs, um método de RL minimalista, mas altamente eficaz, que amostra ações a partir de um softmax sobre esses valores Q da política uniforme. O ROVER preserva a diversidade ao longo do treinamento, permitindo uma exploração sustentada de múltiplos caminhos válidos. Em vários modelos base e benchmarks padrão de raciocínio matemático, o ROVER demonstra desempenho superior tanto em qualidade (+8,2 em pass@1, +16,8 em pass@256) quanto em diversidade (+17,6\%), apesar de sua radical simplificação em comparação com métodos existentes fortes e complicados.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for
improving the reasoning abilities of large language models (LLMs). Current
methods rely primarily on policy optimization frameworks like PPO and GRPO,
which follow generalized policy iteration that alternates between evaluating
the current policy's value and improving the policy based on evaluation. While
effective, they often suffer from training instability and diversity collapse,
requiring complex heuristic tricks and careful tuning. We observe that standard
RLVR in math reasoning can be formalized as a specialized finite-horizon Markov
Decision Process with deterministic state transitions, tree-structured
dynamics, and binary terminal rewards. Though large in scale, the underlying
structure is simpler than general-purpose control settings for which popular RL
algorithms (e.g., PPO) were developed, suggesting that several sophisticated
techniques in existing methods may be reduced or even omitted. Based on this
insight, we prove a surprising result: the optimal action can be recovered from
the Q-function of a fixed uniformly random policy, thereby bypassing the
generalized policy iteration loop and its associated heuristics. We introduce
Random Policy Valuation for Diverse Reasoning (ROVER) to translate this
principle into a practical and scalable algorithm for LLM math reasoning, a
minimalist yet highly effective RL method that samples actions from a softmax
over these uniform-policy Q-values. ROVER preserves diversity throughout
training, allowing sustained exploration of multiple valid pathways. Across
multiple base models and standard math reasoning benchmarks, ROVER demonstrates
superior performance in both quality (+8.2 on pass@1,
+16.8 on pass@256) and diversity (+17.6\%), despite
its radical simplification compared to strong, complicated existing methods.