ChatPaper.aiChatPaper

I modelli di piccole dimensioni faticano ad apprendere da ragionatori potenti.

Small Models Struggle to Learn from Strong Reasoners

February 17, 2025
Autori: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI

Abstract

I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso, e il distillare le loro capacità di ragionamento in modelli più piccoli ha mostrato risultati promettenti. Tuttavia, abbiamo scoperto un fenomeno interessante, che abbiamo denominato Small Model Learnability Gap: i modelli piccoli (≤3B parametri) non traggono beneficio in modo consistente da lunghi ragionamenti a catena (CoT) o dalla distillazione da modelli più grandi. Invece, ottengono prestazioni migliori quando vengono addestrati su catene di ragionamento più brevi e semplici, che si allineano meglio alla loro capacità di apprendimento intrinseca. Per affrontare questo problema, proponiamo Mix Distillation, una strategia semplice ma efficace che bilancia la complessità del ragionamento combinando esempi di CoT lunghi e corti o ragionamenti provenienti sia da modelli più grandi che da modelli più piccoli. I nostri esperimenti dimostrano che Mix Distillation migliora significativamente le prestazioni di ragionamento dei modelli piccoli rispetto all'addestramento su un solo tipo di dati. Questi risultati evidenziano i limiti della distillazione diretta da modelli forti e sottolineano l'importanza di adattare la complessità del ragionamento per un trasferimento efficace delle capacità di ragionamento.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling their reasoning capabilities into smaller models has shown promise. However, we uncover an interesting phenomenon, which we term the Small Model Learnability Gap: small models (leq3B parameters) do not consistently benefit from long chain-of-thought (CoT) reasoning or distillation from larger models. Instead, they perform better when fine-tuned on shorter, simpler reasoning chains that better align with their intrinsic learning capacity. To address this, we propose Mix Distillation, a simple yet effective strategy that balances reasoning complexity by combining long and short CoT examples or reasoning from both larger and smaller models. Our experiments demonstrate that Mix Distillation significantly improves small model reasoning performance compared to training on either data alone. These findings highlight the limitations of direct strong model distillation and underscore the importance of adapting reasoning complexity for effective reasoning capability transfer.

Summary

AI-Generated Summary

PDF376February 20, 2025