Volviendo a lo Básico: Replanteando la Exploración en el Aprendizaje por Refuerzo para el Razonamiento de LLM mediante Probabilidades Generativas

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un paradigma indispensable para mejorar el razonamiento en los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, los métodos de optimización de políticas estándar, como la Optimización de Políticas Relativas por Grupos (GRPO), a menudo convergen en políticas de baja entropía, lo que conduce a un colapso modal severo y a una diversidad de salida limitada. Analizamos este problema desde la perspectiva de la dinámica de probabilidad de muestreo, identificando que el objetivo estándar refuerza desproporcionadamente las rutas de máxima verosimilitud, suprimiendo así cadenas de razonamiento alternativas válidas. Para abordarlo, proponemos un novedoso Mecanismo de Reponderación de Ventajas (ARM) diseñado para equilibrar los niveles de confianza en todas las respuestas correctas. Al incorporar la Perplejidad del Prompt y la Confianza de la Respuesta en la estimación de la ventaja, nuestro método remodela dinámicamente la señal de recompensa para atenuar las actualizaciones de gradiente de las rutas de razonamiento sobre-confidentes, mientras redistribuye la masa de probabilidad hacia soluciones correctas infraexploradas. Los resultados empíricos demuestran que nuestro enfoque mejora significativamente la diversidad generativa y la entropía de las respuestas manteniendo una precisión competitiva, logrando efectivamente un equilibrio superior entre exploración y explotación en tareas de razonamiento. Los resultados empíricos en los modelos Qwen2.5 y DeepSeek en benchmarks matemáticos y de codificación muestran que ProGRPO mitiga significativamente el colapso de entropía. Específicamente, en Qwen2.5-7B, nuestro método supera a GRPO en un 5.7% en Pass@1 y, notablemente, en un 13.9% en Pass@32, destacando su capacidad superior para generar diversas rutas de razonamiento correctas.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.