ChatPaper.aiChatPaper

Através do Vale: Caminho para o Treinamento Eficaz de Longas Cadeias de Pensamento em Modelos de Linguagem Pequenos

Through the Valley: Path to Effective Long CoT Training for Small Language Models

June 9, 2025
Autores: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
cs.AI

Resumo

A supervisão de longas cadeias de raciocínio (CoT, do inglês Chain-of-Thought) tornou-se uma estratégia comum para aprimorar o raciocínio em modelos de linguagem. Embora eficaz para modelos grandes, identificamos um fenômeno que chamamos de Degradação de Longa CoT, no qual modelos de linguagem pequenos (SLMs; <=3B parâmetros) treinados com dados limitados de longas CoTs sofrem uma deterioração significativa de desempenho. Por meio de extensos experimentos com as famílias Qwen2.5, LLaMA3 e Gemma3, demonstramos que essa degradação é generalizada entre SLMs. Em alguns cenários, modelos treinados com apenas 8 mil exemplos de longas CoTs perdem até 75% de seu desempenho original antes do ajuste fino. Surpreendentemente, observamos ainda que, para alguns modelos particularmente pequenos, mesmo o treinamento com 220 mil exemplos de longas CoTs não consegue recuperar ou superar seu desempenho original antes do ajuste fino. Nossa análise atribui esse efeito ao acúmulo de erros: embora respostas mais longas aumentem a capacidade de raciocínio em múltiplas etapas, elas também amplificam o risco de erros acumulados. Além disso, descobrimos que a Degradação de Longa CoT pode impactar negativamente o aprendizado por reforço (RL, do inglês Reinforcement Learning) em tarefas subsequentes, embora isso possa ser mitigado por um ajuste fino supervisionado (SFT, do inglês Supervised Fine-Tuning) suficientemente escalonado. Nossas descobertas desafiam suposições comuns sobre os benefícios do treinamento com longas CoTs para SLMs e oferecem orientações práticas para a construção de modelos de raciocínio em pequena escala mais eficazes.
English
Long chain-of-thought (CoT) supervision has become a common strategy to enhance reasoning in language models. While effective for large models, we identify a phenomenon we call Long CoT Degradation, in which small language models (SLMs; <=3B parameters) trained on limited long CoT data experience significant performance deterioration. Through extensive experiments on the Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is widespread across SLMs. In some settings, models trained on only 8k long CoT examples lose up to 75% of their original performance before fine-tuning. Strikingly, we further observe that for some particularly small models, even training on 220k long CoT examples fails to recover or surpass their original performance prior to fine-tuning. Our analysis attributes this effect to error accumulation: while longer responses increase the capacity for multi-step reasoning, they also amplify the risk of compounding mistakes. Furthermore, we find that Long CoT Degradation may negatively impacts downstream reinforcement learning (RL), although this can be alleviated by sufficiently scaled supervised fine-tuning (SFT). Our findings challenge common assumptions about the benefits of long CoT training for SLMs and offer practical guidance for building more effective small-scale reasoning models.
PDF172June 10, 2025