DLER: Fare bene la penalità di lunghezza - Incentivare più intelligenza per token tramite apprendimento per rinforzo
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning
October 16, 2025
Autori: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
Abstract
I modelli di ragionamento linguistico come OpenAI-o1, DeepSeek-R1 e Qwen raggiungono prestazioni elevate attraverso catene di pensiero estese, ma spesso generano output eccessivamente lunghi. Massimizzare l'intelligenza per token—accuratezza relativa alla lunghezza della risposta—rimane un problema aperto. Riconsideriamo l'apprendimento per rinforzo (RL) con la penalità di lunghezza più semplice—troncamento—e dimostriamo che il degrado dell'accuratezza non deriva dalla mancanza di penalità sofisticate, ma da un'ottimizzazione RL inadeguata. Identifichiamo tre sfide chiave: (i) un grande bias nella stima del vantaggio, (ii) il collasso dell'entropia, e (iii) un segnale di ricompensa sparso. Le affrontiamo con Doing Length pEnalty Right (DLER), una ricetta di addestramento che combina normalizzazione batch-wise del reward, clipping più alto, campionamento dinamico e una semplice penalità di lunghezza per troncamento. DLER raggiunge compromessi stato dell'arte tra accuratezza ed efficienza, riducendo la lunghezza dell'output di oltre il 70% superando tutte le baseline di accuratezza precedenti. Migliora anche lo scaling in fase di test: rispetto a DeepSeek-R1-7B, DLER-7B genera più risposte concise in parallelo con un'accuratezza superiore del 28% e una latenza inferiore. Introduciamo inoltre Difficulty-Aware DLER, che adatta dinamicamente il troncamento su domande più semplici per ulteriori guadagni di efficienza. Proponiamo anche un metodo di fusione selettiva degli aggiornamenti che preserva l'accuratezza della baseline mantenendo la capacità di ragionamento conciso del modello DLER, utile negli scenari in cui i dati di addestramento RL sono scarsi.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve
strong performance via extended chains of thought but often generate
unnecessarily long outputs. Maximizing intelligence per token--accuracy
relative to response length--remains an open problem. We revisit reinforcement
learning (RL) with the simplest length penalty--truncation--and show that
accuracy degradation arises not from the lack of sophisticated penalties but
from inadequate RL optimization. We identify three key challenges: (i) large
bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward
signal. We address them with Doing Length pEnalty Right (DLER), a training
recipe combining batch-wise reward normalization, higher clipping, dynamic
sampling, and a simple truncation length penalty. DLER achieves
state-of-the-art accuracy--efficiency trade-offs, cutting output length by over
70 percent while surpassing all previous baseline accuracy. It also improves
test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple
concise responses in parallel with 28 percent higher accuracy and lower
latency. We further introduce Difficulty-Aware DLER, which adaptively tightens
truncation on easier questions for additional efficiency gains. We also propose
an update-selective merging method that preserves baseline accuracy while
retaining the concise reasoning ability of the DLER model, which is useful for
scenarios where RL training data is scarce.