Normalização ΔL: Repensando a Agregação de Perdas em RLVR
ΔL Normalization: Rethink Loss Aggregation in RLVR
September 9, 2025
Autores: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
cs.AI
Resumo
Propomos a Normalização Delta L, um método simples, porém eficaz, de agregação de perdas adaptado à característica de comprimentos de geração dinâmica no Aprendizado por Reforço com Recompensas Verificáveis (RLVR). Recentemente, o RLVR demonstrou um forte potencial para melhorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs), mas um grande desafio reside na grande variabilidade dos comprimentos das respostas durante o treinamento, o que leva a uma alta variância de gradiente e otimização instável. Embora métodos anteriores, como GRPO, DAPO e Dr. GRPO, introduzam diferentes termos de normalização de perda para abordar esse problema, eles produzem estimativas tendenciosas ou ainda sofrem com alta variância de gradiente. Ao analisar o efeito dos comprimentos variáveis na perda da política tanto teoricamente quanto empiricamente, reformulamos o problema como a busca por um estimador não tendencioso de variância mínima. Nossa proposta de Normalização Delta L não apenas fornece uma estimativa não tendenciosa da verdadeira perda da política, mas também minimiza a variância do gradiente em teoria. Experimentos extensivos mostram que ela consistentemente alcança resultados superiores em diferentes tamanhos de modelo, comprimentos máximos e tarefas. Nosso código será disponibilizado publicamente em https://github.com/zerolllin/Delta-L-Normalization.
English
We propose Delta L Normalization, a simple yet effective loss aggregation
method tailored to the characteristic of dynamic generation lengths in
Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has
demonstrated strong potential in improving the reasoning capabilities of large
language models (LLMs), but a major challenge lies in the large variability of
response lengths during training, which leads to high gradient variance and
unstable optimization. Although previous methods such as GRPO, DAPO, and Dr.
GRPO introduce different loss normalization terms to address this issue, they
either produce biased estimates or still suffer from high gradient variance. By
analyzing the effect of varying lengths on policy loss both theoretically and
empirically, we reformulate the problem as finding a minimum-variance unbiased
estimator. Our proposed Delta L Normalization not only provides an unbiased
estimate of the true policy loss but also minimizes gradient variance in
theory. Extensive experiments show that it consistently achieves superior
results across different model sizes, maximum lengths, and tasks. Our code will
be made public at https://github.com/zerolllin/Delta-L-Normalization.