No desperdicies los errores: Aprovechamiento de grupos RL negativos mediante la re-ponderación de la confianza
Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
October 9, 2025
Autores: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI
Resumen
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en un enfoque estándar para mejorar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento, con la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) ampliamente utilizada en la práctica. Sin embargo, GRPO desperdicia una cantidad considerable de recursos computacionales en grupos negativos: grupos en los que ninguna respuesta muestreada es correcta generan una ventaja nula y, por lo tanto, ningún gradiente. Nos preguntamos si es posible aprovechar los grupos negativos sin supervisión adicional. Partiendo de un objetivo de máxima verosimilitud (MLE, por sus siglas en inglés) en el modelado de recompensas, demostramos que el gradiente de MLE es equivalente a un gradiente de política para una función de valor modificada. Esta función de valor añade una penalización ponderada por la confianza en respuestas incorrectas, imponiendo penalizaciones mayores en errores más confiados. Nos referimos a esto como Estimación de Verosimilitud con Muestras Negativas (LENS, por sus siglas en inglés). LENS modifica GRPO para asignar recompensas no nulas y dependientes de la confianza a generaciones incorrectas, haciendo que los grupos negativos sean informativos y convirtiendo muestras previamente desperdiciadas en actualizaciones de gradiente útiles. En el benchmark MATH con Llama-3.1-8B y Qwen-2.5-3B, la variante propuesta supera consistentemente la línea base de GRPO, con ganancias significativas en ítems más difíciles. Estos resultados demuestran una forma práctica y fundamentada de "rescatar" grupos negativos, mejorando la eficiencia y el rendimiento en RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard
recipe for improving large language models (LLMs) on reasoning tasks, with
Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO
wastes substantial compute on negative groups: groups in which no sampled
response is correct yield zero advantage and thus no gradient. We ask whether
negative groups can be leveraged without extra supervision. Starting from a
maximum-likelihood (MLE) objective in reward modeling, we show that the MLE
gradient is equivalent to a policy gradient for a modified value function. This
value function adds a confidence-weighted penalty on incorrect responses,
imposing larger penalties on more confident mistakes. We refer to this as
Likelihood Estimation with Negative Samples
(LENS). LENS modifies GRPO to assign non-zero, confidence-dependent
rewards to incorrect generations, making negative groups informative and
converting previously wasted samples into useful gradient updates. On the MATH
benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently
outperforms GRPO baseline, with significant gains on harder items. These
results demonstrate a principled and practical way to "rescue" negative groups,
improving efficiency and performance in RLVR.