A través del valle: Camino hacia un entrenamiento efectivo de razonamiento en cadena (CoT) prolongado para modelos de lenguaje pequeños

Resumen

La supervisión de cadenas de razonamiento largas (CoT, por sus siglas en inglés) se ha convertido en una estrategia común para mejorar el razonamiento en los modelos de lenguaje. Aunque es efectiva para modelos grandes, identificamos un fenómeno que denominamos Degradación de CoT Larga, en el cual los modelos de lenguaje pequeños (SLMs; <=3B parámetros) entrenados con datos limitados de CoT larga experimentan un deterioro significativo en su rendimiento. A través de experimentos exhaustivos con las familias Qwen2.5, LLaMA3 y Gemma3, demostramos que esta degradación es generalizada en los SLMs. En algunos casos, los modelos entrenados con solo 8k ejemplos de CoT larga pierden hasta el 75% de su rendimiento original antes del ajuste fino. Sorprendentemente, observamos además que, para algunos modelos particularmente pequeños, incluso el entrenamiento con 220k ejemplos de CoT larga no logra recuperar o superar su rendimiento original previo al ajuste fino. Nuestro análisis atribuye este efecto a la acumulación de errores: aunque las respuestas más largas aumentan la capacidad para el razonamiento de múltiples pasos, también amplifican el riesgo de errores compuestos. Además, encontramos que la Degradación de CoT Larga puede afectar negativamente el aprendizaje por refuerzo (RL) posterior, aunque esto puede mitigarse con un ajuste fino supervisado (SFT) suficientemente escalado. Nuestros hallazgos desafían las suposiciones comunes sobre los beneficios del entrenamiento con CoT larga para los SLMs y ofrecen orientación práctica para construir modelos de razonamiento a pequeña escala más efectivos.

English

Long chain-of-thought (CoT) supervision has become a common strategy to enhance reasoning in language models. While effective for large models, we identify a phenomenon we call Long CoT Degradation, in which small language models (SLMs; <=3B parameters) trained on limited long CoT data experience significant performance deterioration. Through extensive experiments on the Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is widespread across SLMs. In some settings, models trained on only 8k long CoT examples lose up to 75% of their original performance before fine-tuning. Strikingly, we further observe that for some particularly small models, even training on 220k long CoT examples fails to recover or surpass their original performance prior to fine-tuning. Our analysis attributes this effect to error accumulation: while longer responses increase the capacity for multi-step reasoning, they also amplify the risk of compounding mistakes. Furthermore, we find that Long CoT Degradation may negatively impacts downstream reinforcement learning (RL), although this can be alleviated by sufficiently scaled supervised fine-tuning (SFT). Our findings challenge common assumptions about the benefits of long CoT training for SLMs and offer practical guidance for building more effective small-scale reasoning models.

A través del valle: Camino hacia un entrenamiento efectivo de razonamiento en cadena (CoT) prolongado para modelos de lenguaje pequeños

Through the Valley: Path to Effective Long CoT Training for Small Language Models

Resumen

Support