Нормализация ΔL: Переосмысление агрегирования потерь в RLVR
ΔL Normalization: Rethink Loss Aggregation in RLVR
September 9, 2025
Авторы: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
cs.AI
Аннотация
Мы предлагаем Delta L Normalization — простой, но эффективный метод агрегации потерь, адаптированный к особенностям динамической длины генерации в обучении с подкреплением с верифицируемыми наградами (RLVR). В последнее время RLVR продемонстрировал значительный потенциал в улучшении способностей к рассуждению у больших языковых моделей (LLM), однако основная проблема заключается в высокой вариативности длины ответов во время обучения, что приводит к высокой дисперсии градиентов и нестабильной оптимизации. Хотя предыдущие методы, такие как GRPO, DAPO и Dr. GRPO, вводят различные термины нормализации потерь для решения этой проблемы, они либо дают смещенные оценки, либо все еще страдают от высокой дисперсии градиентов. Проанализировав влияние изменяющейся длины на потери политики как теоретически, так и эмпирически, мы переформулировали задачу как поиск несмещенной оценки с минимальной дисперсией. Наш метод Delta L Normalization не только обеспечивает несмещенную оценку истинных потерь политики, но и минимизирует дисперсию градиентов в теории. Многочисленные эксперименты показывают, что он стабильно достигает превосходных результатов для различных размеров моделей, максимальных длин и задач. Наш код будет опубликован по адресу https://github.com/zerolllin/Delta-L-Normalization.
English
We propose Delta L Normalization, a simple yet effective loss aggregation
method tailored to the characteristic of dynamic generation lengths in
Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has
demonstrated strong potential in improving the reasoning capabilities of large
language models (LLMs), but a major challenge lies in the large variability of
response lengths during training, which leads to high gradient variance and
unstable optimization. Although previous methods such as GRPO, DAPO, and Dr.
GRPO introduce different loss normalization terms to address this issue, they
either produce biased estimates or still suffer from high gradient variance. By
analyzing the effect of varying lengths on policy loss both theoretically and
empirically, we reformulate the problem as finding a minimum-variance unbiased
estimator. Our proposed Delta L Normalization not only provides an unbiased
estimate of the true policy loss but also minimizes gradient variance in
theory. Extensive experiments show that it consistently achieves superior
results across different model sizes, maximum lengths, and tasks. Our code will
be made public at https://github.com/zerolllin/Delta-L-Normalization.