Normalizzazione ΔL: Ripensare l'Aggregazione della Funzione di Perdita in RLVR
ΔL Normalization: Rethink Loss Aggregation in RLVR
September 9, 2025
Autori: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
cs.AI
Abstract
Proponiamo la Normalizzazione Delta L, un metodo semplice ma efficace per l'aggregazione della perdita, progettato specificamente per le caratteristiche delle lunghezze di generazione dinamica nel Reinforcement Learning con Ricompense Verificabili (RLVR). Recentemente, l'RLVR ha dimostrato un forte potenziale nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM), ma una delle principali sfide risiede nella grande variabilità delle lunghezze delle risposte durante l'addestramento, che porta a un'elevata varianza del gradiente e a un'ottimizzazione instabile. Sebbene metodi precedenti come GRPO, DAPO e Dr. GRPO abbiano introdotto diversi termini di normalizzazione della perdita per affrontare questo problema, essi producono stime distorte o continuano a soffrire di un'elevata varianza del gradiente. Analizzando l'effetto delle lunghezze variabili sulla perdita della politica sia teoricamente che empiricamente, riformuliamo il problema come la ricerca di uno stimatore imparziale a varianza minima. La nostra proposta di Normalizzazione Delta L non solo fornisce una stima imparziale della vera perdita della politica, ma minimizza anche la varianza del gradiente in teoria. Esperimenti estensivi dimostrano che ottiene costantemente risultati superiori su diverse dimensioni del modello, lunghezze massime e compiti. Il nostro codice sarà reso pubblico all'indirizzo https://github.com/zerolllin/Delta-L-Normalization.
English
We propose Delta L Normalization, a simple yet effective loss aggregation
method tailored to the characteristic of dynamic generation lengths in
Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has
demonstrated strong potential in improving the reasoning capabilities of large
language models (LLMs), but a major challenge lies in the large variability of
response lengths during training, which leads to high gradient variance and
unstable optimization. Although previous methods such as GRPO, DAPO, and Dr.
GRPO introduce different loss normalization terms to address this issue, they
either produce biased estimates or still suffer from high gradient variance. By
analyzing the effect of varying lengths on policy loss both theoretically and
empirically, we reformulate the problem as finding a minimum-variance unbiased
estimator. Our proposed Delta L Normalization not only provides an unbiased
estimate of the true policy loss but also minimizes gradient variance in
theory. Extensive experiments show that it consistently achieves superior
results across different model sizes, maximum lengths, and tasks. Our code will
be made public at https://github.com/zerolllin/Delta-L-Normalization.