Sur la longueur optimale de raisonnement pour les modèles de langage entraînés par apprentissage par renforcement
On the Optimal Reasoning Length for RL-Trained Language Models
February 10, 2026
papers.authors: Daisuke Nohara, Taishi Nakamura, Rio Yokota
cs.AI
papers.abstract
L'apprentissage par renforcement améliore considérablement le raisonnement des grands modèles de langage, mais il a aussi tendance à allonger les chaînes de raisonnement et à augmenter le coût computationnel lors de l'entraînement et de l'inférence. Bien que des méthodes de contrôle de la longueur aient été proposées, la longueur de sortie optimale pour équilibrer efficacité et performance reste incertaine. Dans ce travail, nous comparons plusieurs méthodes de contrôle de la longueur sur deux modèles, Qwen3-1.7B Base et DeepSeek-R1-Distill-Qwen-1.5B. Nos résultats indiquent que les pénalités de longueur peuvent entraver l'acquisition du raisonnement, tandis qu'un contrôle de longueur correctement ajusté peut améliorer l'efficacité pour les modèles dotés d'un fort raisonnement préalable. En étendant les travaux antérieurs aux politiques entraînées par RL, nous identifions deux modes d'échec : 1) les sorties longues augmentent la dispersion, et 2) les sorties courtes conduisent à un sous-raisonnement.
English
Reinforcement learning substantially improves reasoning in large language models, but it also tends to lengthen chain of thought outputs and increase computational cost during both training and inference. Though length control methods have been proposed, it remains unclear what the optimal output length is for balancing efficiency and performance. In this work, we compare several length control methods on two models, Qwen3-1.7B Base and DeepSeek-R1-Distill-Qwen-1.5B. Our results indicate that length penalties may hinder reasoning acquisition, while properly tuned length control can improve efficiency for models with strong prior reasoning. By extending prior work to RL trained policies, we identify two failure modes, 1) long outputs increase dispersion, and 2) short outputs lead to under-thinking.