ChatPaper.aiChatPaper

강화학습으로 훈련된 언어 모델의 최적 추론 길이에 관한 연구

On the Optimal Reasoning Length for RL-Trained Language Models

February 10, 2026
저자: Daisuke Nohara, Taishi Nakamura, Rio Yokota
cs.AI

초록

강화 학습은 대규모 언어 모델의 추론 능력을 크게 향상시키지만, 사고 연쇄 출력의 길이를 늘리고 훈련 및 추론 시 계산 비용을 증가시키는 경향이 있습니다. 길이 제어 방법이 제안되었음에도 불구하고, 효율성과 성능을 균형 있게 조절하기 위한 최적의 출력 길이가 무엇인지는 여전히 불분명합니다. 본 연구에서는 Qwen3-1.7B Base와 DeepSeek-R1-Distill-Qwen-1.5B 두 모델에 대해 여러 길이 제어 방법을 비교합니다. 연구 결과에 따르면, 길이 패널티는 추론 습득을 방해할 수 있는 반면, 적절하게 조정된 길이 제어는 강력한 사전 추론 능력을 가진 모델의 효율성을 향상시킬 수 있습니다. 선행 연구를 강화 학습으로 훈련된 정책에 확장 적용함으로써 두 가지 실패 모드, 즉 1) 긴 출력은 분산을 증가시키고, 2) 짧은 출력은 사고 부족을 초래한다는 점을 확인했습니다.
English
Reinforcement learning substantially improves reasoning in large language models, but it also tends to lengthen chain of thought outputs and increase computational cost during both training and inference. Though length control methods have been proposed, it remains unclear what the optimal output length is for balancing efficiency and performance. In this work, we compare several length control methods on two models, Qwen3-1.7B Base and DeepSeek-R1-Distill-Qwen-1.5B. Our results indicate that length penalties may hinder reasoning acquisition, while properly tuned length control can improve efficiency for models with strong prior reasoning. By extending prior work to RL trained policies, we identify two failure modes, 1) long outputs increase dispersion, and 2) short outputs lead to under-thinking.
PDF21February 12, 2026