ChatPaper.aiChatPaper

Sulla Lunghezza Ottimale del Ragionamento per Modelli Linguistici Addestrati con RL

On the Optimal Reasoning Length for RL-Trained Language Models

February 10, 2026
Autori: Daisuke Nohara, Taishi Nakamura, Rio Yokota
cs.AI

Abstract

L'apprendimento per rinforzo migliora sostanzialmente le capacità di ragionamento dei grandi modelli linguistici, ma tende anche ad allungare le catene di pensiero in output e ad aumentare i costi computazionali sia durante l'addestramento che durante l'inferenza. Sebbene siano stati proposti metodi per il controllo della lunghezza, non è ancora chiaro quale sia la lunghezza ottimale dell'output per bilanciare efficienza e prestazioni. In questo lavoro, confrontiamo diversi metodi di controllo della lunghezza su due modelli, Qwen3-1.7B Base e DeepSeek-R1-Distill-Qwen-1.5B. I nostri risultati indicano che le penalità sulla lunghezza possono ostacolare l'acquisizione del ragionamento, mentre un controllo della lunghezza adeguatamente regolato può migliorare l'efficienza per modelli con un solido ragionamento pregresso. Estendendo il lavoro precedente a politiche addestrate con RL, identifichiamo due modalità di fallimento: 1) output lunghi aumentano la dispersione e 2) output brevi portano a un ragionamento insufficiente.
English
Reinforcement learning substantially improves reasoning in large language models, but it also tends to lengthen chain of thought outputs and increase computational cost during both training and inference. Though length control methods have been proposed, it remains unclear what the optimal output length is for balancing efficiency and performance. In this work, we compare several length control methods on two models, Qwen3-1.7B Base and DeepSeek-R1-Distill-Qwen-1.5B. Our results indicate that length penalties may hinder reasoning acquisition, while properly tuned length control can improve efficiency for models with strong prior reasoning. By extending prior work to RL trained policies, we identify two failure modes, 1) long outputs increase dispersion, and 2) short outputs lead to under-thinking.
PDF52March 19, 2026