ΔL-Normalisierung: Neubetrachtung der Verlustaggregation in RLVR
ΔL Normalization: Rethink Loss Aggregation in RLVR
September 9, 2025
papers.authors: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
cs.AI
papers.abstract
Wir schlagen Delta L Normalization vor, eine einfache, aber effektive Methode zur Verlustaggregation, die auf die charakteristische Dynamik der Generierungslängen in Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zugeschnitten ist. Kürzlich hat RLVR ein starkes Potenzial zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens gezeigt, doch eine große Herausforderung liegt in der hohen Variabilität der Antwortlängen während des Trainings, was zu einer hohen Gradientenvariation und instabiler Optimierung führt. Obwohl frühere Methoden wie GRPO, DAPO und Dr. GRPO verschiedene Verlustnormalisierungsterme eingeführt haben, um dieses Problem zu adressieren, liefern sie entweder verzerrte Schätzungen oder leiden immer noch unter einer hohen Gradientenvariation. Durch die theoretische und empirische Analyse der Auswirkungen variierender Längen auf den Policy-Verlust formulieren wir das Problem neu als die Suche nach einem erwartungstreuen Schätzer mit minimaler Varianz. Unsere vorgeschlagene Delta L Normalization liefert nicht nur eine erwartungstreue Schätzung des tatsächlichen Policy-Verlusts, sondern minimiert auch theoretisch die Gradientenvariation. Umfangreiche Experimente zeigen, dass sie durchweg überlegene Ergebnisse über verschiedene Modellgrößen, maximale Längen und Aufgaben hinweg erzielt. Unser Code wird unter https://github.com/zerolllin/Delta-L-Normalization öffentlich zugänglich gemacht.
English
We propose Delta L Normalization, a simple yet effective loss aggregation
method tailored to the characteristic of dynamic generation lengths in
Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has
demonstrated strong potential in improving the reasoning capabilities of large
language models (LLMs), but a major challenge lies in the large variability of
response lengths during training, which leads to high gradient variance and
unstable optimization. Although previous methods such as GRPO, DAPO, and Dr.
GRPO introduce different loss normalization terms to address this issue, they
either produce biased estimates or still suffer from high gradient variance. By
analyzing the effect of varying lengths on policy loss both theoretically and
empirically, we reformulate the problem as finding a minimum-variance unbiased
estimator. Our proposed Delta L Normalization not only provides an unbiased
estimate of the true policy loss but also minimizes gradient variance in
theory. Extensive experiments show that it consistently achieves superior
results across different model sizes, maximum lengths, and tasks. Our code will
be made public at https://github.com/zerolllin/Delta-L-Normalization.