ChatPaper.aiChatPaper

DLER : Faire la pénalité de longueur correctement - Inciter à plus d'intelligence par token via l'apprentissage par renforcement

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

October 16, 2025
papers.authors: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

papers.abstract

Les modèles de langage à raisonnement tels qu'OpenAI-o1, DeepSeek-R1 et Qwen obtiennent des performances solides grâce à des chaînes de pensée étendues, mais génèrent souvent des sorties inutilement longues. Maximiser l'intelligence par token—la précision relative à la longueur de la réponse—reste un problème ouvert. Nous revisitons l'apprentissage par renforcement (RL) avec la pénalité de longueur la plus simple—la troncature—et montrons que la dégradation de la précision ne provient pas de l'absence de pénalités sophistiquées, mais d'une optimisation RL inadéquate. Nous identifions trois défis clés : (i) un biais important dans l'estimation de l'avantage, (ii) un effondrement de l'entropie, et (iii) un signal de récompense sparse. Nous les abordons avec Doing Length pEnalty Right (DLER), une recette d'entraînement combinant une normalisation des récompenses par lot, un clipping plus élevé, un échantillonnage dynamique et une simple pénalité de longueur par troncature. DLER atteint des compromis précision-efficacité de pointe, réduisant la longueur des sorties de plus de 70 % tout en surpassant toutes les précisions de référence précédentes. Il améliore également la mise à l'échelle en temps de test : par rapport à DeepSeek-R1-7B, DLER-7B génère plusieurs réponses concises en parallèle avec une précision 28 % plus élevée et une latence réduite. Nous introduisons également Difficulty-Aware DLER, qui resserre de manière adaptative la troncature sur les questions plus faciles pour des gains d'efficacité supplémentaires. Nous proposons également une méthode de fusion sélective des mises à jour qui préserve la précision de référence tout en conservant la capacité de raisonnement concis du modèle DLER, utile dans les scénarios où les données d'entraînement RL sont rares.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve strong performance via extended chains of thought but often generate unnecessarily long outputs. Maximizing intelligence per token--accuracy relative to response length--remains an open problem. We revisit reinforcement learning (RL) with the simplest length penalty--truncation--and show that accuracy degradation arises not from the lack of sophisticated penalties but from inadequate RL optimization. We identify three key challenges: (i) large bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward signal. We address them with Doing Length pEnalty Right (DLER), a training recipe combining batch-wise reward normalization, higher clipping, dynamic sampling, and a simple truncation length penalty. DLER achieves state-of-the-art accuracy--efficiency trade-offs, cutting output length by over 70 percent while surpassing all previous baseline accuracy. It also improves test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple concise responses in parallel with 28 percent higher accuracy and lower latency. We further introduce Difficulty-Aware DLER, which adaptively tightens truncation on easier questions for additional efficiency gains. We also propose an update-selective merging method that preserves baseline accuracy while retaining the concise reasoning ability of the DLER model, which is useful for scenarios where RL training data is scarce.
PDF142October 20, 2025