ChatPaper.aiChatPaper

L'évaluation aléatoire des politiques suffit pour le raisonnement des LLM avec des récompenses vérifiables.

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

September 29, 2025
papers.authors: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme un paradigme prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Les méthodes actuelles reposent principalement sur des cadres d'optimisation de politiques tels que PPO et GRPO, qui suivent une itération de politique généralisée alternant entre l'évaluation de la valeur de la politique actuelle et l'amélioration de la politique basée sur cette évaluation. Bien qu'elles soient efficaces, elles souffrent souvent d'instabilité lors de l'entraînement et d'un effondrement de la diversité, nécessitant des astuces heuristiques complexes et un réglage minutieux. Nous observons que le RLVR standard en raisonnement mathématique peut être formalisé comme un processus de décision markovien à horizon fini spécialisé, avec des transitions d'état déterministes, une dynamique structurée en arbre et des récompenses terminales binaires. Bien que de grande échelle, la structure sous-jacente est plus simple que les cadres de contrôle généralisés pour lesquels les algorithmes de RL populaires (par exemple, PPO) ont été développés, suggérant que plusieurs techniques sophistiquées dans les méthodes existantes pourraient être réduites voire omises. Sur la base de cette observation, nous démontrons un résultat surprenant : l'action optimale peut être récupérée à partir de la fonction Q d'une politique uniformément aléatoire fixe, contournant ainsi la boucle d'itération de politique généralisée et ses heuristiques associées. Nous introduisons l'Évaluation de Politique Aléatoire pour un Raisonnement Diversifié (ROVER) pour traduire ce principe en un algorithme pratique et scalable pour le raisonnement mathématique des LLM, une méthode de RL minimaliste mais hautement efficace qui échantillonne les actions à partir d'un softmax sur ces valeurs Q de politique uniforme. ROVER préserve la diversité tout au long de l'entraînement, permettant une exploration soutenue de multiples voies valides. Sur plusieurs modèles de base et benchmarks standards de raisonnement mathématique, ROVER démontre une performance supérieure à la fois en qualité (+8,2 sur pass@1, +16,8 sur pass@256) et en diversité (+17,6\%), malgré sa simplification radicale par rapport aux méthodes existantes fortes et complexes.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for improving the reasoning abilities of large language models (LLMs). Current methods rely primarily on policy optimization frameworks like PPO and GRPO, which follow generalized policy iteration that alternates between evaluating the current policy's value and improving the policy based on evaluation. While effective, they often suffer from training instability and diversity collapse, requiring complex heuristic tricks and careful tuning. We observe that standard RLVR in math reasoning can be formalized as a specialized finite-horizon Markov Decision Process with deterministic state transitions, tree-structured dynamics, and binary terminal rewards. Though large in scale, the underlying structure is simpler than general-purpose control settings for which popular RL algorithms (e.g., PPO) were developed, suggesting that several sophisticated techniques in existing methods may be reduced or even omitted. Based on this insight, we prove a surprising result: the optimal action can be recovered from the Q-function of a fixed uniformly random policy, thereby bypassing the generalized policy iteration loop and its associated heuristics. We introduce Random Policy Valuation for Diverse Reasoning (ROVER) to translate this principle into a practical and scalable algorithm for LLM math reasoning, a minimalist yet highly effective RL method that samples actions from a softmax over these uniform-policy Q-values. ROVER preserves diversity throughout training, allowing sustained exploration of multiple valid pathways. Across multiple base models and standard math reasoning benchmarks, ROVER demonstrates superior performance in both quality (+8.2 on pass@1, +16.8 on pass@256) and diversity (+17.6\%), despite its radical simplification compared to strong, complicated existing methods.
PDF211September 30, 2025