Normalisation ΔL : Repenser l'agrégation des pertes dans RLVR
ΔL Normalization: Rethink Loss Aggregation in RLVR
September 9, 2025
papers.authors: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
cs.AI
papers.abstract
Nous proposons la Normalisation Delta L, une méthode simple mais efficace d'agrégation des pertes adaptée aux caractéristiques des longueurs de génération dynamiques dans l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR). Récemment, le RLVR a démontré un fort potentiel pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), mais un défi majeur réside dans la grande variabilité des longueurs de réponses pendant l'entraînement, ce qui entraîne une variance élevée des gradients et une optimisation instable. Bien que des méthodes précédentes telles que GRPO, DAPO et Dr. GRPO introduisent différents termes de normalisation des pertes pour résoudre ce problème, elles produisent soit des estimations biaisées, soit souffrent encore d'une variance élevée des gradients. En analysant l'effet des longueurs variables sur la perte de politique à la fois théoriquement et empiriquement, nous reformulons le problème comme la recherche d'un estimateur non biaisé à variance minimale. Notre Normalisation Delta L proposée fournit non seulement une estimation non biaisée de la véritable perte de politique, mais minimise également la variance des gradients en théorie. Des expériences approfondies montrent qu'elle obtient systématiquement des résultats supérieurs pour différentes tailles de modèles, longueurs maximales et tâches. Notre code sera rendu public à l'adresse https://github.com/zerolllin/Delta-L-Normalization.
English
We propose Delta L Normalization, a simple yet effective loss aggregation
method tailored to the characteristic of dynamic generation lengths in
Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has
demonstrated strong potential in improving the reasoning capabilities of large
language models (LLMs), but a major challenge lies in the large variability of
response lengths during training, which leads to high gradient variance and
unstable optimization. Although previous methods such as GRPO, DAPO, and Dr.
GRPO introduce different loss normalization terms to address this issue, they
either produce biased estimates or still suffer from high gradient variance. By
analyzing the effect of varying lengths on policy loss both theoretically and
empirically, we reformulate the problem as finding a minimum-variance unbiased
estimator. Our proposed Delta L Normalization not only provides an unbiased
estimate of the true policy loss but also minimizes gradient variance in
theory. Extensive experiments show that it consistently achieves superior
results across different model sizes, maximum lengths, and tasks. Our code will
be made public at https://github.com/zerolllin/Delta-L-Normalization.