La Valoración de Políticas Aleatorias es Suficiente para el Razonamiento de LLM con Recompensas Verificables
Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
September 29, 2025
Autores: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Los métodos actuales se basan principalmente en marcos de optimización de políticas como PPO y GRPO, que siguen una iteración de políticas generalizada que alterna entre evaluar el valor de la política actual y mejorar la política basándose en dicha evaluación. Aunque son efectivos, a menudo sufren de inestabilidad en el entrenamiento y colapso de la diversidad, requiriendo trucos heurísticos complejos y un ajuste cuidadoso. Observamos que el RLVR estándar en el razonamiento matemático puede formalizarse como un Proceso de Decisión de Markov de horizonte finito especializado, con transiciones de estado deterministas, dinámicas estructuradas en árbol y recompensas terminales binarias. Aunque es de gran escala, la estructura subyacente es más simple que los entornos de control de propósito general para los cuales se desarrollaron los algoritmos populares de RL (por ejemplo, PPO), lo que sugiere que varias técnicas sofisticadas en los métodos existentes podrían reducirse o incluso omitirse. Basándonos en esta idea, demostramos un resultado sorprendente: la acción óptima puede recuperarse a partir de la función Q de una política uniformemente aleatoria fija, evitando así el ciclo de iteración de políticas generalizada y sus heurísticas asociadas. Introducimos la Valoración de Políticas Aleatorias para el Razonamiento Diverso (ROVER, por sus siglas en inglés) para traducir este principio en un algoritmo práctico y escalable para el razonamiento matemático en LLMs, un método de RL minimalista pero altamente efectivo que muestrea acciones a partir de un softmax sobre estos valores Q de política uniforme. ROVER preserva la diversidad durante todo el entrenamiento, permitiendo una exploración sostenida de múltiples vías válidas. En múltiples modelos base y benchmarks estándar de razonamiento matemático, ROVER demuestra un rendimiento superior tanto en calidad (+8.2 en pass@1, +16.8 en pass@256) como en diversidad (+17.6\%), a pesar de su radical simplificación en comparación con métodos existentes fuertes y complicados.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for
improving the reasoning abilities of large language models (LLMs). Current
methods rely primarily on policy optimization frameworks like PPO and GRPO,
which follow generalized policy iteration that alternates between evaluating
the current policy's value and improving the policy based on evaluation. While
effective, they often suffer from training instability and diversity collapse,
requiring complex heuristic tricks and careful tuning. We observe that standard
RLVR in math reasoning can be formalized as a specialized finite-horizon Markov
Decision Process with deterministic state transitions, tree-structured
dynamics, and binary terminal rewards. Though large in scale, the underlying
structure is simpler than general-purpose control settings for which popular RL
algorithms (e.g., PPO) were developed, suggesting that several sophisticated
techniques in existing methods may be reduced or even omitted. Based on this
insight, we prove a surprising result: the optimal action can be recovered from
the Q-function of a fixed uniformly random policy, thereby bypassing the
generalized policy iteration loop and its associated heuristics. We introduce
Random Policy Valuation for Diverse Reasoning (ROVER) to translate this
principle into a practical and scalable algorithm for LLM math reasoning, a
minimalist yet highly effective RL method that samples actions from a softmax
over these uniform-policy Q-values. ROVER preserves diversity throughout
training, allowing sustained exploration of multiple valid pathways. Across
multiple base models and standard math reasoning benchmarks, ROVER demonstrates
superior performance in both quality (+8.2 on pass@1,
+16.8 on pass@256) and diversity (+17.6\%), despite
its radical simplification compared to strong, complicated existing methods.