DLER: Längenstrafe richtig umsetzen – Anreize für mehr Intelligenz pro Token durch Reinforcement Learning
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning
October 16, 2025
papers.authors: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
papers.abstract
Reasoning-Sprachmodelle wie OpenAI-o1, DeepSeek-R1 und Qwen erzielen starke Leistungen durch erweiterte Gedankenketten, generieren jedoch oft unnötig lange Ausgaben. Die Maximierung der Intelligenz pro Token – Genauigkeit im Verhältnis zur Antwortlänge – bleibt ein ungelöstes Problem. Wir untersuchen Reinforcement Learning (RL) erneut mit der einfachsten Längenstrafe – der Kürzung – und zeigen, dass die Genauigkeitsabnahme nicht auf das Fehlen ausgefeilter Strafen, sondern auf eine unzureichende RL-Optimierung zurückzuführen ist. Wir identifizieren drei zentrale Herausforderungen: (i) große Verzerrungen in der Vorteilsschätzung, (ii) Entropiekollaps und (iii) spärliche Belohnungssignale. Wir adressieren diese mit „Doing Length pEnalty Right“ (DLER), einem Trainingsrezept, das batchweise Belohnungsnormalisierung, höheres Clipping, dynamisches Sampling und eine einfache Kürzungsstrafe kombiniert. DLER erreicht state-of-the-art Kompromisse zwischen Genauigkeit und Effizienz, reduziert die Ausgabelänge um über 70 Prozent und übertrifft dabei alle bisherigen Basisgenauigkeiten. Es verbessert auch die Skalierung zur Testzeit: Im Vergleich zu DeepSeek-R1-7B generiert DLER-7B mehrere prägnante Antworten parallel mit 28 Prozent höherer Genauigkeit und geringerer Latenz. Wir führen zudem „Difficulty-Aware DLER“ ein, das die Kürzung bei einfacheren Fragen adaptiv verschärft, um zusätzliche Effizienzgewinne zu erzielen. Außerdem schlagen wir eine aktualisierungsselektive Zusammenführungsmethode vor, die die Basisgenauigkeit bewahrt, während die prägnante Argumentationsfähigkeit des DLER-Modells erhalten bleibt, was in Szenarien nützlich ist, in denen RL-Trainingsdaten knapp sind.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve
strong performance via extended chains of thought but often generate
unnecessarily long outputs. Maximizing intelligence per token--accuracy
relative to response length--remains an open problem. We revisit reinforcement
learning (RL) with the simplest length penalty--truncation--and show that
accuracy degradation arises not from the lack of sophisticated penalties but
from inadequate RL optimization. We identify three key challenges: (i) large
bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward
signal. We address them with Doing Length pEnalty Right (DLER), a training
recipe combining batch-wise reward normalization, higher clipping, dynamic
sampling, and a simple truncation length penalty. DLER achieves
state-of-the-art accuracy--efficiency trade-offs, cutting output length by over
70 percent while surpassing all previous baseline accuracy. It also improves
test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple
concise responses in parallel with 28 percent higher accuracy and lower
latency. We further introduce Difficulty-Aware DLER, which adaptively tightens
truncation on easier questions for additional efficiency gains. We also propose
an update-selective merging method that preserves baseline accuracy while
retaining the concise reasoning ability of the DLER model, which is useful for
scenarios where RL training data is scarce.