ChatPaper.aiChatPaper

DLER: Lengtestraf Correct Toepassen - Meer Intelligentie per Token Stimuleren via Reinforcement Learning

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

October 16, 2025
Auteurs: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Samenvatting

Redenerende taalmodellen zoals OpenAI-o1, DeepSeek-R1 en Qwen behalen sterke prestaties via uitgebreide gedachteketens, maar genereren vaak onnodig lange uitvoer. Het maximaliseren van intelligentie per token--nauwkeurigheid in verhouding tot de responslengte--blijft een open probleem. We herzien reinforcement learning (RL) met de eenvoudigste lengtestraf--afkapping--en tonen aan dat nauwkeurigheidsverlies niet voortkomt uit het ontbreken van geavanceerde straffen, maar uit onvoldoende RL-optimalisatie. We identificeren drie belangrijke uitdagingen: (i) grote bias in voordeelschatting, (ii) entropie-instorting, en (iii) een schaars beloningssignaal. We pakken deze aan met Doing Length pEnalty Right (DLER), een trainingsrecept dat batchgewijze beloningsnormalisatie, hoger afkappen, dynamische steekproefname, en een eenvoudige afkappingslengtestraf combineert. DLER behaalt state-of-the-art nauwkeurigheid--efficiëntie-afwegingen, waarbij de uitvoerlengte met meer dan 70 procent wordt verminderd terwijl alle eerdere basislijnnauwkeurigheden worden overtroffen. Het verbetert ook de schaalbaarheid tijdens testen: vergeleken met DeepSeek-R1-7B genereert DLER-7B meerdere beknopte reacties parallel met 28 procent hogere nauwkeurigheid en lagere latentie. We introduceren verder Difficulty-Aware DLER, dat adaptief de afkapping verstrakt bij eenvoudigere vragen voor extra efficiëntiewinsten. We stellen ook een update-selectieve samenvoegmethode voor die de basislijnnauwkeurigheid behoudt terwijl het beknopte redeneervermogen van het DLER-model behouden blijft, wat nuttig is voor scenario's waarin RL-trainingsdata schaars is.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve strong performance via extended chains of thought but often generate unnecessarily long outputs. Maximizing intelligence per token--accuracy relative to response length--remains an open problem. We revisit reinforcement learning (RL) with the simplest length penalty--truncation--and show that accuracy degradation arises not from the lack of sophisticated penalties but from inadequate RL optimization. We identify three key challenges: (i) large bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward signal. We address them with Doing Length pEnalty Right (DLER), a training recipe combining batch-wise reward normalization, higher clipping, dynamic sampling, and a simple truncation length penalty. DLER achieves state-of-the-art accuracy--efficiency trade-offs, cutting output length by over 70 percent while surpassing all previous baseline accuracy. It also improves test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple concise responses in parallel with 28 percent higher accuracy and lower latency. We further introduce Difficulty-Aware DLER, which adaptively tightens truncation on easier questions for additional efficiency gains. We also propose an update-selective merging method that preserves baseline accuracy while retaining the concise reasoning ability of the DLER model, which is useful for scenarios where RL training data is scarce.
PDF142October 20, 2025