ChatPaper.aiChatPaper

Door de vallei: Pad naar effectieve lange CoT-training voor kleine taalmodelle

Through the Valley: Path to Effective Long CoT Training for Small Language Models

June 9, 2025
Auteurs: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI

Samenvatting

Lang keten-van-gedachten (CoT) supervisie is een veelgebruikte strategie geworden om het redeneervermogen van taalmodelen te verbeteren. Hoewel effectief voor grote modellen, identificeren we een fenomeen dat we Lang CoT Degradatie noemen, waarbij kleine taalmodelen (SLMs; <=3B parameters) die getraind zijn op beperkte lange CoT-data, een significante prestatievermindering ervaren. Door uitgebreide experimenten met de Qwen2.5, LLaMA3 en Gemma3 families, tonen we aan dat deze degradatie wijdverspreid is onder SLMs. In sommige gevallen verliezen modellen die getraind zijn op slechts 8k lange CoT-voorbeelden tot wel 75% van hun oorspronkelijke prestaties vóór fine-tuning. Opvallend is dat we verder observeren dat voor sommige bijzonder kleine modellen, zelfs training op 220k lange CoT-voorbeelden niet in staat is om hun oorspronkelijke prestaties vóór fine-tuning te herstellen of te overtreffen. Onze analyse schrijft dit effect toe aan foutaccumulatie: hoewel langere reacties de capaciteit voor meerstapsredenering vergroten, verhogen ze ook het risico op opeenstapelende fouten. Bovendien vinden we dat Lang CoT Degradatie een negatieve impact kan hebben op downstream reinforcement learning (RL), hoewel dit verlicht kan worden door voldoende geschaalde supervised fine-tuning (SFT). Onze bevindingen dagen veelvoorkomende aannames uit over de voordelen van lange CoT-training voor SLMs en bieden praktische richtlijnen voor het bouwen van effectievere kleinschalige redeneermodellen.
English
Long chain-of-thought (CoT) supervision has become a common strategy to enhance reasoning in language models. While effective for large models, we identify a phenomenon we call Long CoT Degradation, in which small language models (SLMs; <=3B parameters) trained on limited long CoT data experience significant performance deterioration. Through extensive experiments on the Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is widespread across SLMs. In some settings, models trained on only 8k long CoT examples lose up to 75% of their original performance before fine-tuning. Strikingly, we further observe that for some particularly small models, even training on 220k long CoT examples fails to recover or surpass their original performance prior to fine-tuning. Our analysis attributes this effect to error accumulation: while longer responses increase the capacity for multi-step reasoning, they also amplify the risk of compounding mistakes. Furthermore, we find that Long CoT Degradation may negatively impacts downstream reinforcement learning (RL), although this can be alleviated by sufficiently scaled supervised fine-tuning (SFT). Our findings challenge common assumptions about the benefits of long CoT training for SLMs and offer practical guidance for building more effective small-scale reasoning models.
PDF172June 10, 2025