DLER: Aplicando Corretamente a Penalidade de Comprimento - Incentivando Mais Inteligência por Token através de Aprendizado por Reforço
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning
October 16, 2025
Autores: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
Resumo
Modelos de linguagem de raciocínio, como OpenAI-o1, DeepSeek-R1 e Qwen, alcançam desempenho robusto por meio de cadeias de pensamento estendidas, mas frequentemente geram saídas desnecessariamente longas. Maximizar a inteligência por token—precisão em relação ao comprimento da resposta—continua sendo um problema em aberto. Revisitamos o aprendizado por reforço (RL) com a penalidade de comprimento mais simples—truncamento—e mostramos que a degradação da precisão não surge da falta de penalidades sofisticadas, mas de uma otimização inadequada do RL. Identificamos três desafios principais: (i) grande viés na estimativa de vantagem, (ii) colapso de entropia e (iii) sinal de recompensa esparso. Abordamos esses desafios com o Doing Length pEnalty Right (DLER), uma receita de treinamento que combina normalização de recompensa por lote, clipping mais alto, amostragem dinâmica e uma simples penalidade de truncamento de comprimento. O DLER alcança trade-offs estado da arte entre precisão e eficiência, reduzindo o comprimento da saída em mais de 70% enquanto supera todas as precisões de baseline anteriores. Ele também melhora a escalabilidade em tempo de teste: em comparação com o DeepSeek-R1-7B, o DLER-7B gera múltiplas respostas concisas em paralelo com 28% mais precisão e menor latência. Introduzimos ainda o DLER com Consciência de Dificuldade, que ajusta adaptativamente o truncamento em perguntas mais fáceis para ganhos adicionais de eficiência. Também propomos um método de mesclagem seletiva de atualizações que preserva a precisão do baseline enquanto mantém a capacidade de raciocínio conciso do modelo DLER, o que é útil para cenários onde os dados de treinamento de RL são escassos.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve
strong performance via extended chains of thought but often generate
unnecessarily long outputs. Maximizing intelligence per token--accuracy
relative to response length--remains an open problem. We revisit reinforcement
learning (RL) with the simplest length penalty--truncation--and show that
accuracy degradation arises not from the lack of sophisticated penalties but
from inadequate RL optimization. We identify three key challenges: (i) large
bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward
signal. We address them with Doing Length pEnalty Right (DLER), a training
recipe combining batch-wise reward normalization, higher clipping, dynamic
sampling, and a simple truncation length penalty. DLER achieves
state-of-the-art accuracy--efficiency trade-offs, cutting output length by over
70 percent while surpassing all previous baseline accuracy. It also improves
test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple
concise responses in parallel with 28 percent higher accuracy and lower
latency. We further introduce Difficulty-Aware DLER, which adaptively tightens
truncation on easier questions for additional efficiency gains. We also propose
an update-selective merging method that preserves baseline accuracy while
retaining the concise reasoning ability of the DLER model, which is useful for
scenarios where RL training data is scarce.