DLER: Правильный подход к штрафу за длину — стимулирование большей интеллектуальной нагрузки на токен с помощью обучения с подкреплением
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning
October 16, 2025
Авторы: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI
Аннотация
Модели рассуждений, такие как OpenAI-o1, DeepSeek-R1 и Qwen, демонстрируют высокую производительность благодаря расширенным цепочкам рассуждений, но часто генерируют излишне длинные ответы. Максимизация интеллекта на токен — точности относительно длины ответа — остается открытой проблемой. Мы возвращаемся к обучению с подкреплением (RL) с использованием простейшего штрафа за длину — усечения — и показываем, что снижение точности возникает не из-за отсутствия сложных штрафов, а из-за недостаточной оптимизации RL. Мы выделяем три ключевые проблемы: (i) значительное смещение в оценке преимуществ, (ii) коллапс энтропии и (iii) разреженный сигнал вознаграждения. Мы решаем их с помощью метода Doing Length pEnalty Right (DLER), который сочетает нормализацию вознаграждения на уровне батчей, более высокое отсечение, динамическую выборку и простой штраф за длину усечения. DLER достигает оптимального баланса между точностью и эффективностью, сокращая длину вывода более чем на 70 процентов, при этом превосходя все предыдущие базовые показатели точности. Он также улучшает масштабируемость во время тестирования: по сравнению с DeepSeek-R1-7B, DLER-7B генерирует несколько кратких ответов параллельно с 28-процентным увеличением точности и меньшей задержкой. Мы также представляем Difficulty-Aware DLER, который адаптивно ужесточает усечение для более простых вопросов, обеспечивая дополнительный прирост эффективности. Кроме того, мы предлагаем метод выборочного объединения обновлений, который сохраняет базовую точность, одновременно поддерживая способность к кратким рассуждениям модели DLER, что полезно в сценариях с ограниченными данными для обучения RL.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve
strong performance via extended chains of thought but often generate
unnecessarily long outputs. Maximizing intelligence per token--accuracy
relative to response length--remains an open problem. We revisit reinforcement
learning (RL) with the simplest length penalty--truncation--and show that
accuracy degradation arises not from the lack of sophisticated penalties but
from inadequate RL optimization. We identify three key challenges: (i) large
bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward
signal. We address them with Doing Length pEnalty Right (DLER), a training
recipe combining batch-wise reward normalization, higher clipping, dynamic
sampling, and a simple truncation length penalty. DLER achieves
state-of-the-art accuracy--efficiency trade-offs, cutting output length by over
70 percent while surpassing all previous baseline accuracy. It also improves
test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple
concise responses in parallel with 28 percent higher accuracy and lower
latency. We further introduce Difficulty-Aware DLER, which adaptively tightens
truncation on easier questions for additional efficiency gains. We also propose
an update-selective merging method that preserves baseline accuracy while
retaining the concise reasoning ability of the DLER model, which is useful for
scenarios where RL training data is scarce.