強化学習で訓練された言語モデルにおける最適な推論長について
On the Optimal Reasoning Length for RL-Trained Language Models
February 10, 2026
著者: Daisuke Nohara, Taishi Nakamura, Rio Yokota
cs.AI
要旨
強化学習は大規模言語モデルの推論能力を大幅に改善するが、思考連鎖の出力を長くし、学習時と推論時の両方で計算コストを増大させる傾向もある。長さ制御手法は提案されているものの、効率と性能を両立させる最適な出力長は未解明である。本研究では、Qwen3-1.7B BaseとDeepSeek-R1-Distill-Qwen-1.5Bの2モデルにおいて複数の長さ制御手法を比較する。結果から、長さペナルティは推論の獲得を妨げる可能性がある一方、適切に調整された長さ制御は強力な事前推論能力を持つモデルの効率を向上させうることが示された。先行研究を強化学習で訓練された方策に拡張することで、1) 長い出力は分散の増大を招き、2) 短い出力は思考不足に繋がる、という2つの失敗モードを特定した。
English
Reinforcement learning substantially improves reasoning in large language models, but it also tends to lengthen chain of thought outputs and increase computational cost during both training and inference. Though length control methods have been proposed, it remains unclear what the optimal output length is for balancing efficiency and performance. In this work, we compare several length control methods on two models, Qwen3-1.7B Base and DeepSeek-R1-Distill-Qwen-1.5B. Our results indicate that length penalties may hinder reasoning acquisition, while properly tuned length control can improve efficiency for models with strong prior reasoning. By extending prior work to RL trained policies, we identify two failure modes, 1) long outputs increase dispersion, and 2) short outputs lead to under-thinking.