ChatPaper.aiChatPaper

Sobre la Longitud Óptima de Razonamiento para Modelos de Lenguaje Entrenados con Aprendizaje por Refuerzo

On the Optimal Reasoning Length for RL-Trained Language Models

February 10, 2026
Autores: Daisuke Nohara, Taishi Nakamura, Rio Yokota
cs.AI

Resumen

El aprendizaje por refuerzo mejora sustancialmente el razonamiento en modelos de lenguaje grandes, pero también tiende a alargar las cadenas de pensamiento y aumentar el costo computacional durante el entrenamiento e inferencia. Aunque se han propuesto métodos de control de longitud, aún no está claro cuál es la longitud óptima de salida para equilibrar eficiencia y rendimiento. En este trabajo, comparamos varios métodos de control de longitud en dos modelos, Qwen3-1.7B Base y DeepSeek-R1-Distill-Qwen-1.5B. Nuestros resultados indican que las penalizaciones por longitud pueden dificultar la adquisición de razonamiento, mientras que un control de longitud adecuadamente ajustado puede mejorar la eficiencia en modelos con razonamiento previo sólido. Al extender trabajos anteriores a políticas entrenadas con RL, identificamos dos modos de fallo: 1) las salidas largas aumentan la dispersión, y 2) las salidas cortas conducen a un razonamiento insuficiente.
English
Reinforcement learning substantially improves reasoning in large language models, but it also tends to lengthen chain of thought outputs and increase computational cost during both training and inference. Though length control methods have been proposed, it remains unclear what the optimal output length is for balancing efficiency and performance. In this work, we compare several length control methods on two models, Qwen3-1.7B Base and DeepSeek-R1-Distill-Qwen-1.5B. Our results indicate that length penalties may hinder reasoning acquisition, while properly tuned length control can improve efficiency for models with strong prior reasoning. By extending prior work to RL trained policies, we identify two failure modes, 1) long outputs increase dispersion, and 2) short outputs lead to under-thinking.
PDF21February 12, 2026