I modelli di piccole dimensioni faticano ad apprendere da ragionatori potenti.
Small Models Struggle to Learn from Strong Reasoners
February 17, 2025
Autori: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI
Abstract
I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso, e il distillare le loro capacità di ragionamento in modelli più piccoli ha mostrato risultati promettenti. Tuttavia, abbiamo scoperto un fenomeno interessante, che abbiamo denominato Small Model Learnability Gap: i modelli piccoli (≤3B parametri) non traggono beneficio in modo consistente da lunghi ragionamenti a catena (CoT) o dalla distillazione da modelli più grandi. Invece, ottengono prestazioni migliori quando vengono addestrati su catene di ragionamento più brevi e semplici, che si allineano meglio alla loro capacità di apprendimento intrinseca. Per affrontare questo problema, proponiamo Mix Distillation, una strategia semplice ma efficace che bilancia la complessità del ragionamento combinando esempi di CoT lunghi e corti o ragionamenti provenienti sia da modelli più grandi che da modelli più piccoli. I nostri esperimenti dimostrano che Mix Distillation migliora significativamente le prestazioni di ragionamento dei modelli piccoli rispetto all'addestramento su un solo tipo di dati. Questi risultati evidenziano i limiti della distillazione diretta da modelli forti e sottolineano l'importanza di adattare la complessità del ragionamento per un trasferimento efficace delle capacità di ragionamento.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling
their reasoning capabilities into smaller models has shown promise. However, we
uncover an interesting phenomenon, which we term the Small Model Learnability
Gap: small models (leq3B parameters) do not consistently benefit from long
chain-of-thought (CoT) reasoning or distillation from larger models. Instead,
they perform better when fine-tuned on shorter, simpler reasoning chains that
better align with their intrinsic learning capacity. To address this, we
propose Mix Distillation, a simple yet effective strategy that balances
reasoning complexity by combining long and short CoT examples or reasoning from
both larger and smaller models. Our experiments demonstrate that Mix
Distillation significantly improves small model reasoning performance compared
to training on either data alone. These findings highlight the limitations of
direct strong model distillation and underscore the importance of adapting
reasoning complexity for effective reasoning capability transfer.Summary
AI-Generated Summary