Durch das Tal: Der Weg zu effektivem Long CoT-Training für kleine Sprachmodelle
Through the Valley: Path to Effective Long CoT Training for Small Language Models
June 9, 2025
Autoren: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI
Zusammenfassung
Die Überwachung mit langen Gedankenketten (Chain-of-Thought, CoT) hat sich zu einer gängigen Strategie entwickelt, um das logische Denken in Sprachmodellen zu verbessern. Obwohl dies bei großen Modellen effektiv ist, identifizieren wir ein Phänomen, das wir als Long CoT Degradation bezeichnen, bei dem kleine Sprachmodelle (SLMs; <=3B Parameter), die mit begrenzten langen CoT-Daten trainiert werden, eine erhebliche Leistungsverschlechterung erfahren. Durch umfangreiche Experimente mit den Modellfamilien Qwen2.5, LLaMA3 und Gemma3 zeigen wir, dass diese Verschlechterung bei SLMs weit verbreitet ist. In einigen Fällen verlieren Modelle, die mit nur 8.000 langen CoT-Beispielen trainiert wurden, bis zu 75 % ihrer ursprünglichen Leistung vor dem Fine-Tuning. Bemerkenswerterweise beobachten wir weiterhin, dass bei einigen besonders kleinen Modellen selbst das Training mit 220.000 langen CoT-Beispielen nicht ausreicht, um ihre ursprüngliche Leistung vor dem Fine-Tuning wiederherzustellen oder zu übertreffen. Unsere Analyse führt diesen Effekt auf Fehlerakkumulation zurück: Während längere Antworten die Kapazität für mehrstufiges logisches Denken erhöhen, verstärken sie auch das Risiko, dass sich Fehler summieren. Darüber hinaus stellen wir fest, dass Long CoT Degradation sich negativ auf nachgelagerte Verstärkungslernverfahren (Reinforcement Learning, RL) auswirken kann, obwohl dies durch ausreichend skaliertes überwachtes Fine-Tuning (Supervised Fine-Tuning, SFT) gemildert werden kann. Unsere Ergebnisse stellen gängige Annahmen über die Vorteile des langen CoT-Trainings für SLMs in Frage und bieten praktische Leitlinien für den Aufbau effektiverer kleinerer Modelle für logisches Denken.
English
Long chain-of-thought (CoT) supervision has become a common strategy to
enhance reasoning in language models. While effective for large models, we
identify a phenomenon we call Long CoT Degradation, in which small language
models (SLMs; <=3B parameters) trained on limited long CoT data experience
significant performance deterioration. Through extensive experiments on the
Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is
widespread across SLMs. In some settings, models trained on only 8k long CoT
examples lose up to 75% of their original performance before fine-tuning.
Strikingly, we further observe that for some particularly small models, even
training on 220k long CoT examples fails to recover or surpass their original
performance prior to fine-tuning. Our analysis attributes this effect to error
accumulation: while longer responses increase the capacity for multi-step
reasoning, they also amplify the risk of compounding mistakes. Furthermore, we
find that Long CoT Degradation may negatively impacts downstream reinforcement
learning (RL), although this can be alleviated by sufficiently scaled
supervised fine-tuning (SFT). Our findings challenge common assumptions about
the benefits of long CoT training for SLMs and offer practical guidance for
building more effective small-scale reasoning models.