계곡을 넘어: 소규모 언어 모델을 위한 효과적인 장기 사고 사슬(CoT) 훈련의 길
Through the Valley: Path to Effective Long CoT Training for Small Language Models
June 9, 2025
저자: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI
초록
긴 사고 사슬(Long Chain-of-Thought, CoT) 감독은 언어 모델의 추론 능력을 향상시키기 위한 일반적인 전략으로 자리 잡았습니다. 그러나 대형 모델에서는 효과적이지만, 우리는 소형 언어 모델(SLMs; <=3B 파라미터)이 제한된 긴 CoT 데이터로 학습할 때 성능이 크게 저하되는 현상을 발견하였으며, 이를 '긴 CoT 성능 저하(Long CoT Degradation)'라고 명명했습니다. Qwen2.5, LLaMA3, Gemma3 계열 모델을 대상으로 한 광범위한 실험을 통해, 이러한 성능 저하가 SLMs 전반에 걸쳐 널리 나타남을 확인했습니다. 일부 설정에서는 단 8,000개의 긴 CoT 예제로 학습한 모델이 미세 조정 전 성능의 최대 75%까지 하락하는 것으로 나타났습니다. 더욱 놀라운 점은, 특히 작은 모델의 경우 220,000개의 긴 CoT 예제로 학습하더라도 미세 조정 전 성능을 회복하거나 초과하지 못하는 경우가 관찰되었다는 것입니다. 우리의 분석은 이러한 현상을 오류 누적 효과로 설명합니다: 더 긴 응답은 다단계 추론 능력을 확장시키지만, 동시에 오류가 누적될 위험도 증폭시킵니다. 또한, 긴 CoT 성능 저하는 하위 강화 학습(RL)에도 부정적인 영향을 미칠 수 있으나, 충분히 확장된 감독 미세 조정(SFT)을 통해 이를 완화할 수 있음을 발견했습니다. 이 연구 결과는 SLMs에 대한 긴 CoT 학습의 이점에 대한 일반적인 가정에 의문을 제기하며, 더 효과적인 소규모 추론 모델 구축을 위한 실용적인 지침을 제공합니다.
English
Long chain-of-thought (CoT) supervision has become a common strategy to
enhance reasoning in language models. While effective for large models, we
identify a phenomenon we call Long CoT Degradation, in which small language
models (SLMs; <=3B parameters) trained on limited long CoT data experience
significant performance deterioration. Through extensive experiments on the
Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is
widespread across SLMs. In some settings, models trained on only 8k long CoT
examples lose up to 75% of their original performance before fine-tuning.
Strikingly, we further observe that for some particularly small models, even
training on 220k long CoT examples fails to recover or surpass their original
performance prior to fine-tuning. Our analysis attributes this effect to error
accumulation: while longer responses increase the capacity for multi-step
reasoning, they also amplify the risk of compounding mistakes. Furthermore, we
find that Long CoT Degradation may negatively impacts downstream reinforcement
learning (RL), although this can be alleviated by sufficiently scaled
supervised fine-tuning (SFT). Our findings challenge common assumptions about
the benefits of long CoT training for SLMs and offer practical guidance for
building more effective small-scale reasoning models.