ChatPaper.aiChatPaper

DLER: Haciendo bien la penalización por longitud - Incentivando más inteligencia por token mediante aprendizaje por refuerzo

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

October 16, 2025
Autores: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

Resumen

Los modelos de lenguaje de razonamiento, como OpenAI-o1, DeepSeek-R1 y Qwen, logran un rendimiento sólido mediante cadenas de pensamiento extendidas, pero a menudo generan salidas innecesariamente largas. Maximizar la inteligencia por token—precisión en relación con la longitud de la respuesta—sigue siendo un problema abierto. Revisitamos el aprendizaje por refuerzo (RL) con la penalización de longitud más simple—truncamiento—y demostramos que la degradación en la precisión no surge de la falta de penalizaciones sofisticadas, sino de una optimización inadecuada del RL. Identificamos tres desafíos clave: (i) un gran sesgo en la estimación de ventajas, (ii) colapso de entropía y (iii) señal de recompensa dispersa. Los abordamos con "Doing Length pEnalty Right" (DLER), una receta de entrenamiento que combina normalización de recompensas por lotes, recorte superior, muestreo dinámico y una simple penalización de longitud por truncamiento. DLER logra un equilibrio estado del arte entre precisión y eficiencia, reduciendo la longitud de la salida en más del 70 por ciento mientras supera la precisión de todas las líneas base anteriores. También mejora la escalabilidad en tiempo de prueba: en comparación con DeepSeek-R1-7B, DLER-7B genera múltiples respuestas concisas en paralelo con un 28 por ciento más de precisión y menor latencia. Además, presentamos DLER con Conciencia de Dificultad, que ajusta adaptativamente el truncamiento en preguntas más fáciles para obtener ganancias adicionales de eficiencia. También proponemos un método de fusión selectiva de actualizaciones que preserva la precisión de la línea base mientras mantiene la capacidad de razonamiento conciso del modelo DLER, lo cual es útil para escenarios donde los datos de entrenamiento de RL son escasos.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve strong performance via extended chains of thought but often generate unnecessarily long outputs. Maximizing intelligence per token--accuracy relative to response length--remains an open problem. We revisit reinforcement learning (RL) with the simplest length penalty--truncation--and show that accuracy degradation arises not from the lack of sophisticated penalties but from inadequate RL optimization. We identify three key challenges: (i) large bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward signal. We address them with Doing Length pEnalty Right (DLER), a training recipe combining batch-wise reward normalization, higher clipping, dynamic sampling, and a simple truncation length penalty. DLER achieves state-of-the-art accuracy--efficiency trade-offs, cutting output length by over 70 percent while surpassing all previous baseline accuracy. It also improves test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple concise responses in parallel with 28 percent higher accuracy and lower latency. We further introduce Difficulty-Aware DLER, which adaptively tightens truncation on easier questions for additional efficiency gains. We also propose an update-selective merging method that preserves baseline accuracy while retaining the concise reasoning ability of the DLER model, which is useful for scenarios where RL training data is scarce.
PDF142October 20, 2025