Normalización ΔL: Repensando la Agregación de Pérdidas en RLVR
ΔL Normalization: Rethink Loss Aggregation in RLVR
September 9, 2025
Autores: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
cs.AI
Resumen
Proponemos Delta L Normalization, un método simple pero efectivo de agregación de pérdidas adaptado a la característica de longitudes de generación dinámica en Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Recientemente, RLVR ha demostrado un gran potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), pero un desafío importante radica en la gran variabilidad de las longitudes de respuesta durante el entrenamiento, lo que conduce a una alta varianza en los gradientes y a una optimización inestable. Aunque métodos anteriores como GRPO, DAPO y Dr. GRPO introducen diferentes términos de normalización de pérdidas para abordar este problema, ya sea producen estimaciones sesgadas o aún sufren de una alta varianza en los gradientes. Al analizar el efecto de las longitudes variables en la pérdida de política tanto teórica como empíricamente, reformulamos el problema como la búsqueda de un estimador insesgado de varianza mínima. Nuestra propuesta de Delta L Normalización no solo proporciona una estimación insesgada de la verdadera pérdida de política, sino que también minimiza la varianza del gradiente en teoría. Experimentos extensos muestran que consistentemente logra resultados superiores en diferentes tamaños de modelos, longitudes máximas y tareas. Nuestro código estará disponible públicamente en https://github.com/zerolllin/Delta-L-Normalization.
English
We propose Delta L Normalization, a simple yet effective loss aggregation
method tailored to the characteristic of dynamic generation lengths in
Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has
demonstrated strong potential in improving the reasoning capabilities of large
language models (LLMs), but a major challenge lies in the large variability of
response lengths during training, which leads to high gradient variance and
unstable optimization. Although previous methods such as GRPO, DAPO, and Dr.
GRPO introduce different loss normalization terms to address this issue, they
either produce biased estimates or still suffer from high gradient variance. By
analyzing the effect of varying lengths on policy loss both theoretically and
empirically, we reformulate the problem as finding a minimum-variance unbiased
estimator. Our proposed Delta L Normalization not only provides an unbiased
estimate of the true policy loss but also minimizes gradient variance in
theory. Extensive experiments show that it consistently achieves superior
results across different model sizes, maximum lengths, and tasks. Our code will
be made public at https://github.com/zerolllin/Delta-L-Normalization.