No desperdicies los errores: Aprovechamiento de grupos RL negativos mediante la re-ponderación de la confianza

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en un enfoque estándar para mejorar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento, con la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) ampliamente utilizada en la práctica. Sin embargo, GRPO desperdicia una cantidad considerable de recursos computacionales en grupos negativos: grupos en los que ninguna respuesta muestreada es correcta generan una ventaja nula y, por lo tanto, ningún gradiente. Nos preguntamos si es posible aprovechar los grupos negativos sin supervisión adicional. Partiendo de un objetivo de máxima verosimilitud (MLE, por sus siglas en inglés) en el modelado de recompensas, demostramos que el gradiente de MLE es equivalente a un gradiente de política para una función de valor modificada. Esta función de valor añade una penalización ponderada por la confianza en respuestas incorrectas, imponiendo penalizaciones mayores en errores más confiados. Nos referimos a esto como Estimación de Verosimilitud con Muestras Negativas (LENS, por sus siglas en inglés). LENS modifica GRPO para asignar recompensas no nulas y dependientes de la confianza a generaciones incorrectas, haciendo que los grupos negativos sean informativos y convirtiendo muestras previamente desperdiciadas en actualizaciones de gradiente útiles. En el benchmark MATH con Llama-3.1-8B y Qwen-2.5-3B, la variante propuesta supera consistentemente la línea base de GRPO, con ganancias significativas en ítems más difíciles. Estos resultados demuestran una forma práctica y fundamentada de "rescatar" grupos negativos, mejorando la eficiencia y el rendimiento en RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard recipe for improving large language models (LLMs) on reasoning tasks, with Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO wastes substantial compute on negative groups: groups in which no sampled response is correct yield zero advantage and thus no gradient. We ask whether negative groups can be leveraged without extra supervision. Starting from a maximum-likelihood (MLE) objective in reward modeling, we show that the MLE gradient is equivalent to a policy gradient for a modified value function. This value function adds a confidence-weighted penalty on incorrect responses, imposing larger penalties on more confident mistakes. We refer to this as Likelihood Estimation with Negative Samples (LENS). LENS modifies GRPO to assign non-zero, confidence-dependent rewards to incorrect generations, making negative groups informative and converting previously wasted samples into useful gradient updates. On the MATH benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently outperforms GRPO baseline, with significant gains on harder items. These results demonstrate a principled and practical way to "rescue" negative groups, improving efficiency and performance in RLVR.

No desperdicies los errores: Aprovechamiento de grupos RL negativos mediante la re-ponderación de la confianza

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

Resumen

Support