Back to Basics: Neubewertung der Exploration beim Reinforcement Learning für LLM-Reasoning mittels generativer Wahrscheinlichkeiten
Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities
February 5, 2026
Autoren: Pengyi Li, Elizaveta Goncharova, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Zusammenfassung
Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als unverzichtbares Paradigma zur Verbesserung des Schlussfolgerns in großen Sprachmodellen (LLMs) etabliert. Allerdings konvergieren Standardmethoden der Politikoptimierung, wie Group Relative Policy Optimization (GRPO), oft zu Politikern mit niedriger Entropie, was zu schwerem Modus-Zusammenbruch und begrenzter Ausgabevielfalt führt. Wir analysieren dieses Problem aus der Perspektive der Dynamik von Sampling-Wahrscheinlichkeiten und identifizieren, dass das Standardziel die Pfade mit der höchsten Wahrscheinlichkeit unverhältnismäßig verstärkt und dadurch gültige alternative Schlussfolgerungsketten unterdrückt. Um dies zu beheben, schlagen wir einen neuartigen Advantage Re-weighting Mechanism (ARM) vor, der darauf ausgelegt ist, die Konfidenzniveaus über alle korrekten Antworten hinweg auszugleichen. Indem wir Prompt Perplexity und Answer Confidence in die Advantage-Schätzung einbeziehen, formt unsere Methode das Belohnungssignal dynamisch um, um die Gradientenupdates überkonfidenter Schlussfolgerungspfade abzuschwächen und gleichzeitig Wahrscheinlichkeitsmasse zu untererforschten korrekten Lösungen umzuverteilen. Empirische Ergebnisse belegen, dass unser Ansatz die generative Vielfalt und die Antwortentropie signifikant steigert und dabei eine wettbewerbsfähige Genauigkeit beibehält, wodurch ein überlegener Kompromiss zwischen Exploration und Exploitation in Schlussfolgerungsaufgaben effektiv erreicht wird. Empirische Ergebnisse an Qwen2.5- und DeepSeek-Modellen in mathematischen und Programmier-Benchmarks zeigen, dass ProGRPO den Entropie-Zusammenbruch erheblich abschwächt. Konkret übertrifft unsere Methode bei Qwen2.5-7B GRPO um 5,7 % in Pass@1 und, bemerkenswerterweise, um 13,9 % in Pass@32, was ihre überlegene Fähigkeit zur Erzeugung vielfältiger korrekter Schlussfolgerungspfade unterstreicht.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.