ChatPaper.aiChatPaper

DLER: Fare bene la penalità di lunghezza - Incentivare più intelligenza per token tramite apprendimento per rinforzo

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

October 16, 2025
Autori: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Abstract

I modelli di ragionamento linguistico come OpenAI-o1, DeepSeek-R1 e Qwen raggiungono prestazioni elevate attraverso catene di pensiero estese, ma spesso generano output eccessivamente lunghi. Massimizzare l'intelligenza per token—accuratezza relativa alla lunghezza della risposta—rimane un problema aperto. Riconsideriamo l'apprendimento per rinforzo (RL) con la penalità di lunghezza più semplice—troncamento—e dimostriamo che il degrado dell'accuratezza non deriva dalla mancanza di penalità sofisticate, ma da un'ottimizzazione RL inadeguata. Identifichiamo tre sfide chiave: (i) un grande bias nella stima del vantaggio, (ii) il collasso dell'entropia, e (iii) un segnale di ricompensa sparso. Le affrontiamo con Doing Length pEnalty Right (DLER), una ricetta di addestramento che combina normalizzazione batch-wise del reward, clipping più alto, campionamento dinamico e una semplice penalità di lunghezza per troncamento. DLER raggiunge compromessi stato dell'arte tra accuratezza ed efficienza, riducendo la lunghezza dell'output di oltre il 70% superando tutte le baseline di accuratezza precedenti. Migliora anche lo scaling in fase di test: rispetto a DeepSeek-R1-7B, DLER-7B genera più risposte concise in parallelo con un'accuratezza superiore del 28% e una latenza inferiore. Introduciamo inoltre Difficulty-Aware DLER, che adatta dinamicamente il troncamento su domande più semplici per ulteriori guadagni di efficienza. Proponiamo anche un metodo di fusione selettiva degli aggiornamenti che preserva l'accuratezza della baseline mantenendo la capacità di ragionamento conciso del modello DLER, utile negli scenari in cui i dati di addestramento RL sono scarsi.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve strong performance via extended chains of thought but often generate unnecessarily long outputs. Maximizing intelligence per token--accuracy relative to response length--remains an open problem. We revisit reinforcement learning (RL) with the simplest length penalty--truncation--and show that accuracy degradation arises not from the lack of sophisticated penalties but from inadequate RL optimization. We identify three key challenges: (i) large bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward signal. We address them with Doing Length pEnalty Right (DLER), a training recipe combining batch-wise reward normalization, higher clipping, dynamic sampling, and a simple truncation length penalty. DLER achieves state-of-the-art accuracy--efficiency trade-offs, cutting output length by over 70 percent while surpassing all previous baseline accuracy. It also improves test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple concise responses in parallel with 28 percent higher accuracy and lower latency. We further introduce Difficulty-Aware DLER, which adaptively tightens truncation on easier questions for additional efficiency gains. We also propose an update-selective merging method that preserves baseline accuracy while retaining the concise reasoning ability of the DLER model, which is useful for scenarios where RL training data is scarce.
PDF142October 20, 2025