ChatPaper.aiChatPaper

Attraverso la Valle: Percorso verso un Addestramento Efficace con Long CoT per Modelli Linguistici di Piccole Dimensioni

Through the Valley: Path to Effective Long CoT Training for Small Language Models

June 9, 2025
Autori: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI

Abstract

La supervisione con lunghe catene di pensiero (CoT) è diventata una strategia comune per potenziare il ragionamento nei modelli linguistici. Sebbene efficace per i modelli di grandi dimensioni, abbiamo identificato un fenomeno che chiamiamo Degradazione da Lunga CoT, in cui i piccoli modelli linguistici (SLM; <=3B parametri) addestrati su dati limitati di lunghe CoT subiscono un significativo deterioramento delle prestazioni. Attraverso esperimenti estesi sulle famiglie Qwen2.5, LLaMA3 e Gemma3, dimostriamo che questa degradazione è diffusa tra gli SLM. In alcuni contesti, i modelli addestrati su soli 8k esempi di lunghe CoT perdono fino al 75% delle loro prestazioni originali prima del fine-tuning. Sorprendentemente, osserviamo inoltre che per alcuni modelli particolarmente piccoli, anche l'addestramento su 220k esempi di lunghe CoT non riesce a recuperare o superare le loro prestazioni originali prima del fine-tuning. La nostra analisi attribuisce questo effetto all'accumulo di errori: sebbene risposte più lunghe aumentino la capacità di ragionamento multi-step, amplificano anche il rischio di errori composti. Inoltre, scopriamo che la Degradazione da Lunga CoT può influire negativamente sull'apprendimento per rinforzo (RL) a valle, sebbene ciò possa essere mitigato da un fine-tuning supervisionato (SFT) sufficientemente scalato. Le nostre scoperte mettono in discussione le assunzioni comuni sui benefici dell'addestramento con lunghe CoT per gli SLM e offrono indicazioni pratiche per costruire modelli di ragionamento su piccola scala più efficaci.
English
Long chain-of-thought (CoT) supervision has become a common strategy to enhance reasoning in language models. While effective for large models, we identify a phenomenon we call Long CoT Degradation, in which small language models (SLMs; <=3B parameters) trained on limited long CoT data experience significant performance deterioration. Through extensive experiments on the Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is widespread across SLMs. In some settings, models trained on only 8k long CoT examples lose up to 75% of their original performance before fine-tuning. Strikingly, we further observe that for some particularly small models, even training on 220k long CoT examples fails to recover or surpass their original performance prior to fine-tuning. Our analysis attributes this effect to error accumulation: while longer responses increase the capacity for multi-step reasoning, they also amplify the risk of compounding mistakes. Furthermore, we find that Long CoT Degradation may negatively impacts downstream reinforcement learning (RL), although this can be alleviated by sufficiently scaled supervised fine-tuning (SFT). Our findings challenge common assumptions about the benefits of long CoT training for SLMs and offer practical guidance for building more effective small-scale reasoning models.
PDF182June 10, 2025