ChatPaper.aiChatPaper

Les petits modèles ont du mal à apprendre à partir de raisonneurs puissants.

Small Models Struggle to Learn from Strong Reasoners

February 17, 2025
Auteurs: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI

Résumé

Les grands modèles de langage (LLMs) excellent dans les tâches de raisonnement complexe, et la distillation de leurs capacités de raisonnement dans des modèles plus petits s'est avérée prometteuse. Cependant, nous découvrons un phénomène intéressant, que nous appelons l'Écart d'Apprenabilité des Petits Modèles : les petits modèles (≤3B paramètres) ne bénéficient pas systématiquement des longues chaînes de raisonnement (CoT) ou de la distillation des modèles plus grands. Au contraire, ils obtiennent de meilleures performances lorsqu'ils sont affinés sur des chaînes de raisonnement plus courtes et plus simples, mieux alignées sur leur capacité d'apprentissage intrinsèque. Pour remédier à cela, nous proposons la Distillation Mixte, une stratégie simple mais efficace qui équilibre la complexité du raisonnement en combinant des exemples de CoT longs et courts ou des raisonnements issus à la fois de modèles plus grands et plus petits. Nos expériences démontrent que la Distillation Mixte améliore significativement les performances de raisonnement des petits modèles par rapport à un entraînement sur un seul type de données. Ces résultats mettent en lumière les limites de la distillation directe à partir de modèles forts et soulignent l'importance d'adapter la complexité du raisonnement pour un transfert efficace des capacités de raisonnement.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling their reasoning capabilities into smaller models has shown promise. However, we uncover an interesting phenomenon, which we term the Small Model Learnability Gap: small models (leq3B parameters) do not consistently benefit from long chain-of-thought (CoT) reasoning or distillation from larger models. Instead, they perform better when fine-tuned on shorter, simpler reasoning chains that better align with their intrinsic learning capacity. To address this, we propose Mix Distillation, a simple yet effective strategy that balances reasoning complexity by combining long and short CoT examples or reasoning from both larger and smaller models. Our experiments demonstrate that Mix Distillation significantly improves small model reasoning performance compared to training on either data alone. These findings highlight the limitations of direct strong model distillation and underscore the importance of adapting reasoning complexity for effective reasoning capability transfer.
PDF386February 20, 2025