Retour aux bases : Revisiter l'exploration en apprentissage par renforcement pour le raisonnement des LLM via les probabilités génératives

Résumé

Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) est devenu un paradigme indispensable pour améliorer les capacités de raisonnement des Grands Modèles de Langage (LLM). Cependant, les méthodes d'optimisation de politique standard, telles que l'Optimisation de Politique Relative par Groupe (GRPO), convergent souvent vers des politiques à faible entropie, entraînant un effondrement modal sévère et une diversité de sortie limitée. Nous analysons ce problème sous l'angle de la dynamique des probabilités d'échantillonnage, en identifiant que l'objectif standard renforce de manière disproportionnée les chemins de plus haute vraisemblance, supprimant ainsi les chaînes de raisonnement alternatives valides. Pour y remédier, nous proposons un nouveau Mécanisme de Repondération de l'Avantage (ARM) conçu pour équilibrer les niveaux de confiance entre toutes les réponses correctes. En intégrant la Perplexité de l'Invite et la Confiance de la Réponse dans l'estimation de l'avantage, notre méthode remodèle dynamiquement le signal de récompense pour atténuer les mises à jour du gradient des chemins de raisonnement sur-confidents, tout en redistribuant la masse de probabilité vers les solutions correctes sous-explorées. Les résultats empiriques démontrent que notre approche améliore significativement la diversité générative et l'entropie des réponses tout en maintenant une précision compétitive, réalisant efficacement un compromis supérieur entre exploration et exploitation dans les tâches de raisonnement. Les résultats empiriques sur les modèles Qwen2.5 et DeepSeek, sur des benchmarks mathématiques et de codage, montrent que ProGRPO atténue significativement l'effondrement de l'entropie. Plus précisément, sur Qwen2.5-7B, notre méthode surpasse GRPO de 5,7 % en Pass@1 et, notablement, de 13,9 % en Pass@32, soulignant sa capacité supérieure à générer des chemins de raisonnement corrects et diversifiés.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.

Retour aux bases : Revisiter l'exploration en apprentissage par renforcement pour le raisonnement des LLM via les probabilités génératives

Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

Résumé

Support