Ritorno alle Basi: Rivalutazione dell'Esplorazione nel Reinforcement Learning per il Ragionamento degli LLM Tramite Probabilità Generative
Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities
February 5, 2026
Autori: Pengyi Li, Elizaveta Goncharova, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma indispensabile per potenziare il ragionamento nei Large Language Model (LLM). Tuttavia, i metodi di ottimizzazione delle policy standard, come il Group Relative Policy Optimization (GRPO), convergono spesso verso policy a bassa entropia, portando a un severo collasso modale e a una limitata diversità degli output. Analizziamo questo problema dalla prospettiva della dinamica delle probabilità di campionamento, identificando come la funzione obiettivo standard rinforzi in modo sproporzionato i percorsi a massima verosimiglianza, sopprimendo così catene di ragionamento alternative valide. Per affrontare questa criticità, proponiamo un nuovo meccanismo di Advantage Re-weighting (ARM) progettato per equilibrare i livelli di confidenza tra tutte le risposte corrette. Incorporando la Perplessità del Prompt e la Confidenza della Risposta nella stima del vantaggio, il nostro metodo ricalibrà dinamicamente il segnale di ricompensa per attenuare gli aggiornamenti del gradiente dei percorsi di ragionamento iper-confidenti, ridistribuendo al contempo la massa di probabilità verso le soluzioni corrette sotto-esplorate. I risultati empirici dimostrano che il nostro approccio migliora significativamente la diversità generativa e l'entropia delle risposte, mantenendo un'accuratezza competitiva e raggiungendo efficacemente un compromesso superiore tra esplorazione e sfruttamento nei compiti di ragionamento. I risultati sperimentali sui modelli Qwen2.5 e DeepSeek in benchmark matematici e di coding mostrano che ProGRPO mitiga significativamente il collasso dell'entropia. In particolare, su Qwen2.5-7B, il nostro metodo supera il GRPO del 5.7% in Pass@1 e, in modo significativo, del 13.9% in Pass@32, evidenziando la sua superiore capacità di generare percorsi di ragionamento corretti e diversificati.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.