Через долину: путь к эффективному обучению длинных цепочек рассуждений для малых языковых моделей
Through the Valley: Path to Effective Long CoT Training for Small Language Models
June 9, 2025
Авторы: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI
Аннотация
Длинное управление цепочкой рассуждений (CoT) стало распространенной стратегией для улучшения способности к рассуждению в языковых моделях. Хотя этот подход эффективен для крупных моделей, мы выявили явление, которое назвали "деградацией длинной CoT", при котором небольшие языковые модели (SLM; <=3B параметров), обученные на ограниченных данных с длинной CoT, демонстрируют значительное ухудшение производительности. В ходе обширных экспериментов с семействами моделей Qwen2.5, LLaMA3 и Gemma3 мы показали, что такая деградация широко распространена среди SLM. В некоторых случаях модели, обученные всего на 8 тыс. примеров длинной CoT, теряют до 75% своей исходной производительности до тонкой настройки. Более того, мы обнаружили, что для некоторых особенно небольших моделей даже обучение на 220 тыс. примеров длинной CoT не позволяет восстановить или превзойти их исходную производительность до тонкой настройки. Наш анализ связывает этот эффект с накоплением ошибок: хотя более длинные ответы увеличивают способность к многошаговому рассуждению, они также усиливают риск накопления ошибок. Кроме того, мы обнаружили, что деградация длинной CoT может негативно влиять на последующее обучение с подкреплением (RL), хотя это может быть смягчено за счет достаточно масштабированной контролируемой тонкой настройки (SFT). Наши результаты ставят под сомнение распространенные предположения о преимуществах длинного обучения CoT для SLM и предлагают практические рекомендации для создания более эффективных моделей рассуждений малого масштаба.
English
Long chain-of-thought (CoT) supervision has become a common strategy to
enhance reasoning in language models. While effective for large models, we
identify a phenomenon we call Long CoT Degradation, in which small language
models (SLMs; <=3B parameters) trained on limited long CoT data experience
significant performance deterioration. Through extensive experiments on the
Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is
widespread across SLMs. In some settings, models trained on only 8k long CoT
examples lose up to 75% of their original performance before fine-tuning.
Strikingly, we further observe that for some particularly small models, even
training on 220k long CoT examples fails to recover or surpass their original
performance prior to fine-tuning. Our analysis attributes this effect to error
accumulation: while longer responses increase the capacity for multi-step
reasoning, they also amplify the risk of compounding mistakes. Furthermore, we
find that Long CoT Degradation may negatively impacts downstream reinforcement
learning (RL), although this can be alleviated by sufficiently scaled
supervised fine-tuning (SFT). Our findings challenge common assumptions about
the benefits of long CoT training for SLMs and offer practical guidance for
building more effective small-scale reasoning models.