Modelos Pequenos Têm Dificuldade em Aprender com Raciocinadores Fortes
Small Models Struggle to Learn from Strong Reasoners
February 17, 2025
Autores: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) se destacam em tarefas de raciocínio complexo, e a destilação de suas capacidades de raciocínio em modelos menores tem mostrado resultados promissores. No entanto, descobrimos um fenômeno interessante, que denominamos Lacuna de Aprendizagem em Modelos Pequenos: modelos pequenos (≤3B parâmetros) não se beneficiam consistentemente de longas cadeias de raciocínio (CoT) ou da destilação de modelos maiores. Em vez disso, eles apresentam melhor desempenho quando ajustados em cadeias de raciocínio mais curtas e simples, que se alinham melhor com sua capacidade intrínseca de aprendizado. Para abordar isso, propomos a Destilação Mista, uma estratégia simples, porém eficaz, que equilibra a complexidade do raciocínio ao combinar exemplos de CoT longos e curtos ou raciocínios de modelos maiores e menores. Nossos experimentos demonstram que a Destilação Mista melhora significativamente o desempenho de raciocínio de modelos pequenos em comparação com o treinamento usando apenas um tipo de dado. Essas descobertas destacam as limitações da destilação direta de modelos fortes e enfatizam a importância de adaptar a complexidade do raciocínio para uma transferência eficaz de capacidade de raciocínio.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling
their reasoning capabilities into smaller models has shown promise. However, we
uncover an interesting phenomenon, which we term the Small Model Learnability
Gap: small models (leq3B parameters) do not consistently benefit from long
chain-of-thought (CoT) reasoning or distillation from larger models. Instead,
they perform better when fine-tuned on shorter, simpler reasoning chains that
better align with their intrinsic learning capacity. To address this, we
propose Mix Distillation, a simple yet effective strategy that balances
reasoning complexity by combining long and short CoT examples or reasoning from
both larger and smaller models. Our experiments demonstrate that Mix
Distillation significantly improves small model reasoning performance compared
to training on either data alone. These findings highlight the limitations of
direct strong model distillation and underscore the importance of adapting
reasoning complexity for effective reasoning capability transfer.Summary
AI-Generated Summary