Terug naar de basis: Verkenning in reinforcement learning voor LLM-redenering opnieuw bekeken via generatieve kansen

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een onmisbaar paradigma voor het verbeteren van redeneervaardigheden in Grote Taalmodellen (LLM's). Echter, standaard beleidsoptimalisatiemethoden, zoals Groep Relatieve Beleidsoptimalisatie (GRPO), convergeren vaak naar beleidsregels met een lage entropie, wat leidt tot ernstige mode-collaps en beperkte outputdiversiteit. Wij analyseren dit probleem vanuit het perspectief van de dynamiek van steekproefkansen, en constateren dat de standaarddoelstelling de paden met de hoogste aannemelijkheid disproportioneel versterkt, waardoor geldige alternatieve redeneerketens worden onderdrukt. Om dit aan te pakken, stellen wij een nieuw Voordeel-Herweging Mechanism (ARM) voor, dat is ontworpen om de betrouwbaarheidsniveaus van alle correcte antwoorden in evenwicht te brengen. Door Prompt Perplexiteit en Antwoordbetrouwbaarheid op te nemen in de voordelschatting, hervormt onze methode dynamisch het beloningssignaal om de gradientupdates van over-betrouwbare redeneerpaden af te zwakken, terwijl de kansmassa wordt herverdeeld naar onderbelichte correcte oplossingen. Empirische resultaten tonen aan dat onze aanpak de generatieve diversiteit en responsentropie aanzienlijk verbetert, terwijl een competitieve nauwkeurigheid behouden blijft, waardoor effectief een superieure balans tussen exploratie en exploitatie in redeneertaken wordt bereikt. Empirische resultaten op Qwen2.5- en DeepSeek-modellen voor wiskundige en codeerbenchmarks laten zien dat ProGRPO entropie-collaps significant vermindert. Specifiek presteert onze methode op Qwen2.5-7B 5,7% beter dan GRPO in Pass@1 en, opmerkelijk, 13,9% beter in Pass@32, wat haar superieure vermogen aantoont om diverse correcte redeneerpaden te genereren.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.

Terug naar de basis: Verkenning in reinforcement learning voor LLM-redenering opnieuw bekeken via generatieve kansen

Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

Samenvatting

Support