A través del valle: Camino hacia un entrenamiento efectivo de razonamiento en cadena (CoT) prolongado para modelos de lenguaje pequeños
Through the Valley: Path to Effective Long CoT Training for Small Language Models
June 9, 2025
Autores: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI
Resumen
La supervisión de cadenas de razonamiento largas (CoT, por sus siglas en inglés) se ha convertido en una estrategia común para mejorar el razonamiento en los modelos de lenguaje. Aunque es efectiva para modelos grandes, identificamos un fenómeno que denominamos Degradación de CoT Larga, en el cual los modelos de lenguaje pequeños (SLMs; <=3B parámetros) entrenados con datos limitados de CoT larga experimentan un deterioro significativo en su rendimiento. A través de experimentos exhaustivos con las familias Qwen2.5, LLaMA3 y Gemma3, demostramos que esta degradación es generalizada en los SLMs. En algunos casos, los modelos entrenados con solo 8k ejemplos de CoT larga pierden hasta el 75% de su rendimiento original antes del ajuste fino. Sorprendentemente, observamos además que, para algunos modelos particularmente pequeños, incluso el entrenamiento con 220k ejemplos de CoT larga no logra recuperar o superar su rendimiento original previo al ajuste fino. Nuestro análisis atribuye este efecto a la acumulación de errores: aunque las respuestas más largas aumentan la capacidad para el razonamiento de múltiples pasos, también amplifican el riesgo de errores compuestos. Además, encontramos que la Degradación de CoT Larga puede afectar negativamente el aprendizaje por refuerzo (RL) posterior, aunque esto puede mitigarse con un ajuste fino supervisado (SFT) suficientemente escalado. Nuestros hallazgos desafían las suposiciones comunes sobre los beneficios del entrenamiento con CoT larga para los SLMs y ofrecen orientación práctica para construir modelos de razonamiento a pequeña escala más efectivos.
English
Long chain-of-thought (CoT) supervision has become a common strategy to
enhance reasoning in language models. While effective for large models, we
identify a phenomenon we call Long CoT Degradation, in which small language
models (SLMs; <=3B parameters) trained on limited long CoT data experience
significant performance deterioration. Through extensive experiments on the
Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is
widespread across SLMs. In some settings, models trained on only 8k long CoT
examples lose up to 75% of their original performance before fine-tuning.
Strikingly, we further observe that for some particularly small models, even
training on 220k long CoT examples fails to recover or surpass their original
performance prior to fine-tuning. Our analysis attributes this effect to error
accumulation: while longer responses increase the capacity for multi-step
reasoning, they also amplify the risk of compounding mistakes. Furthermore, we
find that Long CoT Degradation may negatively impacts downstream reinforcement
learning (RL), although this can be alleviated by sufficiently scaled
supervised fine-tuning (SFT). Our findings challenge common assumptions about
the benefits of long CoT training for SLMs and offer practical guidance for
building more effective small-scale reasoning models.