Normalización ΔL: Repensando la Agregación de Pérdidas en RLVR

Resumen

Proponemos Delta L Normalization, un método simple pero efectivo de agregación de pérdidas adaptado a la característica de longitudes de generación dinámica en Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Recientemente, RLVR ha demostrado un gran potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), pero un desafío importante radica en la gran variabilidad de las longitudes de respuesta durante el entrenamiento, lo que conduce a una alta varianza en los gradientes y a una optimización inestable. Aunque métodos anteriores como GRPO, DAPO y Dr. GRPO introducen diferentes términos de normalización de pérdidas para abordar este problema, ya sea producen estimaciones sesgadas o aún sufren de una alta varianza en los gradientes. Al analizar el efecto de las longitudes variables en la pérdida de política tanto teórica como empíricamente, reformulamos el problema como la búsqueda de un estimador insesgado de varianza mínima. Nuestra propuesta de Delta L Normalización no solo proporciona una estimación insesgada de la verdadera pérdida de política, sino que también minimiza la varianza del gradiente en teoría. Experimentos extensos muestran que consistentemente logra resultados superiores en diferentes tamaños de modelos, longitudes máximas y tareas. Nuestro código estará disponible públicamente en https://github.com/zerolllin/Delta-L-Normalization.

English

We propose Delta L Normalization, a simple yet effective loss aggregation method tailored to the characteristic of dynamic generation lengths in Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has demonstrated strong potential in improving the reasoning capabilities of large language models (LLMs), but a major challenge lies in the large variability of response lengths during training, which leads to high gradient variance and unstable optimization. Although previous methods such as GRPO, DAPO, and Dr. GRPO introduce different loss normalization terms to address this issue, they either produce biased estimates or still suffer from high gradient variance. By analyzing the effect of varying lengths on policy loss both theoretically and empirically, we reformulate the problem as finding a minimum-variance unbiased estimator. Our proposed Delta L Normalization not only provides an unbiased estimate of the true policy loss but also minimizes gradient variance in theory. Extensive experiments show that it consistently achieves superior results across different model sizes, maximum lengths, and tasks. Our code will be made public at https://github.com/zerolllin/Delta-L-Normalization.

Normalización ΔL: Repensando la Agregación de Pérdidas en RLVR

ΔL Normalization: Rethink Loss Aggregation in RLVR

Resumen

Support