À travers la vallée : Chemin vers un entraînement efficace en Long CoT pour les petits modèles de langage
Through the Valley: Path to Effective Long CoT Training for Small Language Models
June 9, 2025
Auteurs: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI
Résumé
La supervision par chaîne de pensée longue (CoT) est devenue une stratégie courante pour améliorer le raisonnement des modèles de langage. Bien qu'elle soit efficace pour les grands modèles, nous identifions un phénomène que nous appelons la Dégradation de la CoT Longue, dans lequel les petits modèles de langage (SLM ; <=3 milliards de paramètres) entraînés sur des données limitées de CoT longue subissent une détérioration significative de leurs performances. À travers des expériences approfondies sur les familles Qwen2.5, LLaMA3 et Gemma3, nous démontrons que cette dégradation est répandue parmi les SLM. Dans certains cas, les modèles entraînés sur seulement 8 000 exemples de CoT longue perdent jusqu'à 75 % de leurs performances initiales avant le fine-tuning. De manière frappante, nous observons également que pour certains modèles particulièrement petits, même un entraînement sur 220 000 exemples de CoT longue ne permet pas de retrouver ou de dépasser leurs performances initiales avant le fine-tuning. Notre analyse attribue cet effet à l'accumulation d'erreurs : bien que des réponses plus longues augmentent la capacité de raisonnement en plusieurs étapes, elles amplifient également le risque d'erreurs cumulatives. De plus, nous constatons que la Dégradation de la CoT Longue peut avoir un impact négatif sur l'apprentissage par renforcement (RL) en aval, bien que cela puisse être atténué par un fine-tuning supervisé (SFT) suffisamment étendu. Nos résultats remettent en question les hypothèses courantes sur les avantages de l'entraînement par CoT longue pour les SLM et offrent des conseils pratiques pour construire des modèles de raisonnement à petite échelle plus efficaces.
English
Long chain-of-thought (CoT) supervision has become a common strategy to
enhance reasoning in language models. While effective for large models, we
identify a phenomenon we call Long CoT Degradation, in which small language
models (SLMs; <=3B parameters) trained on limited long CoT data experience
significant performance deterioration. Through extensive experiments on the
Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is
widespread across SLMs. In some settings, models trained on only 8k long CoT
examples lose up to 75% of their original performance before fine-tuning.
Strikingly, we further observe that for some particularly small models, even
training on 220k long CoT examples fails to recover or surpass their original
performance prior to fine-tuning. Our analysis attributes this effect to error
accumulation: while longer responses increase the capacity for multi-step
reasoning, they also amplify the risk of compounding mistakes. Furthermore, we
find that Long CoT Degradation may negatively impacts downstream reinforcement
learning (RL), although this can be alleviated by sufficiently scaled
supervised fine-tuning (SFT). Our findings challenge common assumptions about
the benefits of long CoT training for SLMs and offer practical guidance for
building more effective small-scale reasoning models.