ChatPaper.aiChatPaper

ΔL Normalisatie: Heroverweging van Verliesaggregatie in RLVR

ΔL Normalization: Rethink Loss Aggregation in RLVR

September 9, 2025
Auteurs: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
cs.AI

Samenvatting

We stellen Delta L Normalisatie voor, een eenvoudige maar effectieve methode voor het aggregeren van verlies, afgestemd op de kenmerken van dynamische generatielengtes in Reinforcement Learning met Verifieerbare Beloningen (RLVR). Recentelijk heeft RLVR sterk potentieel getoond in het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs), maar een grote uitdaging ligt in de aanzienlijke variabiliteit van responslengtes tijdens de training, wat leidt tot hoge gradiëntvariantie en instabiele optimalisatie. Hoewel eerdere methoden zoals GRPO, DAPO en Dr. GRPO verschillende verliesnormalisatietermen introduceren om dit probleem aan te pakken, produceren ze ofwel bevooroordeelde schattingen of lijden ze nog steeds aan hoge gradiëntvariantie. Door het effect van variërende lengtes op het beleidsverlies zowel theoretisch als empirisch te analyseren, herformuleren we het probleem als het vinden van een minimum-variantie onbevooroordeelde schatter. Onze voorgestelde Delta L Normalisatie biedt niet alleen een onbevooroordeelde schatting van het werkelijke beleidsverlies, maar minimaliseert ook de gradiëntvariantie in theorie. Uitgebreide experimenten tonen aan dat het consistent superieure resultaten behaalt over verschillende modelgroottes, maximale lengtes en taken. Onze code zal openbaar gemaakt worden op https://github.com/zerolllin/Delta-L-Normalization.
English
We propose Delta L Normalization, a simple yet effective loss aggregation method tailored to the characteristic of dynamic generation lengths in Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has demonstrated strong potential in improving the reasoning capabilities of large language models (LLMs), but a major challenge lies in the large variability of response lengths during training, which leads to high gradient variance and unstable optimization. Although previous methods such as GRPO, DAPO, and Dr. GRPO introduce different loss normalization terms to address this issue, they either produce biased estimates or still suffer from high gradient variance. By analyzing the effect of varying lengths on policy loss both theoretically and empirically, we reformulate the problem as finding a minimum-variance unbiased estimator. Our proposed Delta L Normalization not only provides an unbiased estimate of the true policy loss but also minimizes gradient variance in theory. Extensive experiments show that it consistently achieves superior results across different model sizes, maximum lengths, and tasks. Our code will be made public at https://github.com/zerolllin/Delta-L-Normalization.
PDF72September 10, 2025