ChatPaper.aiChatPaper

DLER: 길이 패널티를 올바르게 적용하기 - 강화 학습을 통해 토큰당 더 많은 지능을 유도하는 방법

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

October 16, 2025
저자: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
cs.AI

초록

OpenAI-o1, DeepSeek-R1, Qwen과 같은 추론 언어 모델은 확장된 사고 사슬을 통해 강력한 성능을 달성하지만, 종종 불필요하게 긴 출력을 생성합니다. 토큰당 지능(정확도 대비 응답 길이)을 극대화하는 것은 여전히 해결되지 않은 문제로 남아 있습니다. 우리는 가장 간단한 길이 패널티인 잘림(truncation)을 사용한 강화 학습(RL)을 재검토하고, 정확도 저하가 정교한 패널티의 부재가 아니라 부적절한 RL 최적화에서 비롯됨을 보여줍니다. 우리는 세 가지 주요 과제를 식별했습니다: (i) 이점 추정에서의 큰 편향, (ii) 엔트로피 붕괴, (iii) 희소한 보상 신호. 이를 해결하기 위해 배치별 보상 정규화, 높은 클리핑, 동적 샘플링, 그리고 간단한 잘림 길이 패널티를 결합한 Doing Length pEnalty Right(DLER)라는 훈련 방법을 제안합니다. DLER는 출력 길이를 70% 이상 줄이면서 이전의 모든 기준 정확도를 능가하는 최첨단 정확도-효율성 균형을 달성합니다. 또한 테스트 시간 스케일링을 개선합니다: DeepSeek-R1-7B와 비교하여 DLER-7B는 28% 더 높은 정확도와 더 낮은 지연 시간으로 여러 간결한 응답을 병렬로 생성합니다. 우리는 또한 더 쉬운 질문에 대해 적응적으로 잘림을 강화하여 추가적인 효율성 향상을 달성하는 Difficulty-Aware DLER를 소개합니다. 또한 RL 훈련 데이터가 부족한 시나리오에서 유용한, 기준 정확도를 유지하면서 DLER 모델의 간결한 추론 능력을 보존하는 업데이트 선택적 병합 방법을 제안합니다.
English
Reasoning language models such as OpenAI-o1, DeepSeek-R1, and Qwen achieve strong performance via extended chains of thought but often generate unnecessarily long outputs. Maximizing intelligence per token--accuracy relative to response length--remains an open problem. We revisit reinforcement learning (RL) with the simplest length penalty--truncation--and show that accuracy degradation arises not from the lack of sophisticated penalties but from inadequate RL optimization. We identify three key challenges: (i) large bias in advantage estimation, (ii) entropy collapse, and (iii) sparse reward signal. We address them with Doing Length pEnalty Right (DLER), a training recipe combining batch-wise reward normalization, higher clipping, dynamic sampling, and a simple truncation length penalty. DLER achieves state-of-the-art accuracy--efficiency trade-offs, cutting output length by over 70 percent while surpassing all previous baseline accuracy. It also improves test-time scaling: compared to DeepSeek-R1-7B, DLER-7B generates multiple concise responses in parallel with 28 percent higher accuracy and lower latency. We further introduce Difficulty-Aware DLER, which adaptively tightens truncation on easier questions for additional efficiency gains. We also propose an update-selective merging method that preserves baseline accuracy while retaining the concise reasoning ability of the DLER model, which is useful for scenarios where RL training data is scarce.
PDF142October 20, 2025