ChatPaper.aiChatPaper

DLER: Aplicando Corretamente a Penalidade de Comprimento - Incentivando Mais Inteligência por Token através de Aprendizado por Reforço

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

October 16, 2025
Autores: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Resumo

Modelos de linguagem de raciocínio, como OpenAI-o1, DeepSeek-R1 e Qwen, alcançam desempenho robusto por meio de cadeias de pensamento estendidas, mas frequentemente geram saídas desnecessariamente longas. Maximizar a inteligência por token—precisão em relação ao comprimento da resposta—continua sendo um problema em aberto. Revisitamos o aprendizado por reforço (RL) com a penalidade de comprimento mais simples—truncamento—e mostramos que a degradação da precisão não surge da falta de penalidades sofisticadas, mas de uma otimização inadequada do RL. Identificamos três desafios principais: (i) grande viés na estimativa de vantagem, (ii) colapso de entropia e (iii) sinal de recompensa esparso. Abordamos esses desafios com o Doing Length pEnalty Right (DLER), uma receita de treinamento que combina normalização de recompensa por lote, clipping mais alto, amostragem dinâmica e uma simples penalidade de truncamento de comprimento. O DLER alcança trade-offs estado da arte entre precisão e eficiência, reduzindo o comprimento da saída em mais de 70% enquanto supera todas as precisões de baseline anteriores. Ele também melhora a escalabilidade em tempo de teste: em comparação com o DeepSeek-R1-7B, o DLER-7B gera múltiplas respostas concisas em paralelo com 28% mais precisão e menor latência. Introduzimos ainda o DLER com Consciência de Dificuldade, que ajusta adaptativamente o truncamento em perguntas mais fáceis para ganhos adicionais de eficiência. Também propomos um método de mesclagem seletiva de atualizações que preserva a precisão do baseline enquanto mantém a capacidade de raciocínio conciso do modelo DLER, o que é útil para cenários onde os dados de treinamento de RL são escassos.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve strong performance via extended chains of thought but often generate unnecessarily long outputs. Maximizing intelligence per token--accuracy relative to response length--remains an open problem. We revisit reinforcement learning (RL) with the simplest length penalty--truncation--and show that accuracy degradation arises not from the lack of sophisticated penalties but from inadequate RL optimization. We identify three key challenges: (i) large bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward signal. We address them with Doing Length pEnalty Right (DLER), a training recipe combining batch-wise reward normalization, higher clipping, dynamic sampling, and a simple truncation length penalty. DLER achieves state-of-the-art accuracy--efficiency trade-offs, cutting output length by over 70 percent while surpassing all previous baseline accuracy. It also improves test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple concise responses in parallel with 28 percent higher accuracy and lower latency. We further introduce Difficulty-Aware DLER, which adaptively tightens truncation on easier questions for additional efficiency gains. We also propose an update-selective merging method that preserves baseline accuracy while retaining the concise reasoning ability of the DLER model, which is useful for scenarios where RL training data is scarce.
PDF142October 20, 2025