DLER: Lengtestraf Correct Toepassen - Meer Intelligentie per Token Stimuleren via Reinforcement Learning
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning
October 16, 2025
Auteurs: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
Samenvatting
Redenerende taalmodellen zoals OpenAI-o1, DeepSeek-R1 en Qwen behalen
sterke prestaties via uitgebreide gedachteketens, maar genereren vaak
onnodig lange uitvoer. Het maximaliseren van intelligentie per token--nauwkeurigheid
in verhouding tot de responslengte--blijft een open probleem. We herzien reinforcement
learning (RL) met de eenvoudigste lengtestraf--afkapping--en tonen aan dat
nauwkeurigheidsverlies niet voortkomt uit het ontbreken van geavanceerde straffen, maar
uit onvoldoende RL-optimalisatie. We identificeren drie belangrijke uitdagingen: (i) grote
bias in voordeelschatting, (ii) entropie-instorting, en (iii) een schaars beloningssignaal.
We pakken deze aan met Doing Length pEnalty Right (DLER), een trainingsrecept
dat batchgewijze beloningsnormalisatie, hoger afkappen, dynamische steekproefname,
en een eenvoudige afkappingslengtestraf combineert. DLER behaalt
state-of-the-art nauwkeurigheid--efficiëntie-afwegingen, waarbij de uitvoerlengte met meer dan
70 procent wordt verminderd terwijl alle eerdere basislijnnauwkeurigheden worden overtroffen.
Het verbetert ook de schaalbaarheid tijdens testen: vergeleken met DeepSeek-R1-7B genereert DLER-7B
meerdere beknopte reacties parallel met 28 procent hogere nauwkeurigheid en lagere
latentie. We introduceren verder Difficulty-Aware DLER, dat adaptief de afkapping
verstrakt bij eenvoudigere vragen voor extra efficiëntiewinsten. We stellen ook
een update-selectieve samenvoegmethode voor die de basislijnnauwkeurigheid behoudt
terwijl het beknopte redeneervermogen van het DLER-model behouden blijft, wat nuttig is
voor scenario's waarin RL-trainingsdata schaars is.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve
strong performance via extended chains of thought but often generate
unnecessarily long outputs. Maximizing intelligence per token--accuracy
relative to response length--remains an open problem. We revisit reinforcement
learning (RL) with the simplest length penalty--truncation--and show that
accuracy degradation arises not from the lack of sophisticated penalties but
from inadequate RL optimization. We identify three key challenges: (i) large
bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward
signal. We address them with Doing Length pEnalty Right (DLER), a training
recipe combining batch-wise reward normalization, higher clipping, dynamic
sampling, and a simple truncation length penalty. DLER achieves
state-of-the-art accuracy--efficiency trade-offs, cutting output length by over
70 percent while surpassing all previous baseline accuracy. It also improves
test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple
concise responses in parallel with 28 percent higher accuracy and lower
latency. We further introduce Difficulty-Aware DLER, which adaptively tightens
truncation on easier questions for additional efficiency gains. We also propose
an update-selective merging method that preserves baseline accuracy while
retaining the concise reasoning ability of the DLER model, which is useful for
scenarios where RL training data is scarce.