Los Errores por Exceso de Confianza Requieren una Corrección Más Enérgica: Penalizaciones Asimétricas de Confianza en el Aprendizaje por Refuerzo

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) se ha consolidado como el paradigma principal para mejorar el razonamiento en los Modelos de Lenguaje Grande (LLM). Sin embargo, los algoritmos estándar de RLVR adolecen de una patología bien documentada: si bien mejoran la precisión Pass@1 mediante un muestreo más agudo, simultáneamente reducen el límite de razonamiento del modelo y disminuyen la diversidad de las generaciones. Identificamos una causa raíz que los métodos existentes pasan por alto: la penalización uniforme de los errores. Los enfoques actuales —ya sean métodos de filtrado de datos que seleccionan prompts por dificultad, o esquemas de normalización de ventajas— tratan todos los rollouts incorrectos dentro de un grupo de manera idéntica. Demostramos que esta uniformidad permite que los errores de sobreconfianza (trayectorias de razonamiento incorrectas que el proceso de RL ha reforzado espuriamente) persistan y monopolicen la masa de probabilidad, suprimiendo finalmente las trayectorias exploratorias válidas. Para abordar este problema, proponemos la Penalización Asimétrica de Errores Conscientes de la Confianza (ACE). ACE introduce una métrica de desplazamiento de confianza por rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), para modular dinámicamente las ventajas negativas. Teóricamente, demostramos que el gradiente de ACE puede descomponerse en el gradiente de un regularizador selectivo restringido a errores de sobreconfianza, más un residual bien caracterizado que modera parcialmente la fuerza del regularizador. Realizamos extensos experimentos de fine-tuning en Qwen2.5-Math-7B, Qwen3-8B-Base y Llama-3.1-8B-Instruct utilizando el conjunto de datos DAPO-Math-17K y los métodos GRPO y DAPO dentro del marco VERL. Evaluado en MATH-500 y AIME 2025, ACE se combina perfectamente con métodos existentes y mejora consistentemente todo el espectro Pass@k en las tres familias de modelos y benchmarks.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.

Los Errores por Exceso de Confianza Requieren una Corrección Más Enérgica: Penalizaciones Asimétricas de Confianza en el Aprendizaje por Refuerzo

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Resumen

Support