Kleine Modelle haben Schwierigkeiten, von starken Schlussfolgerern zu lernen.
Small Models Struggle to Learn from Strong Reasoners
February 17, 2025
Autoren: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeichnen sich bei komplexen Denkaufgaben aus, und die Destillation ihrer Denkfähigkeiten in kleinere Modelle hat vielversprechende Ergebnisse gezeigt. Wir entdecken jedoch ein interessantes Phänomen, das wir als Small Model Learnability Gap bezeichnen: Kleine Modelle (≤3B Parameter) profitieren nicht konsistent von langen Chain-of-Thought (CoT)-Denkprozessen oder der Destillation von größeren Modellen. Stattdessen schneiden sie besser ab, wenn sie auf kürzeren, einfacheren Denkketten feinabgestimmt werden, die besser mit ihrer intrinsischen Lernkapazität übereinstimmen. Um dies zu adressieren, schlagen wir Mix Distillation vor, eine einfache, aber effektive Strategie, die die Komplexität des Denkens ausgleicht, indem sie lange und kurze CoT-Beispiele oder Denkprozesse sowohl von größeren als auch kleineren Modellen kombiniert. Unsere Experimente zeigen, dass Mix Distillation die Denkleistung kleiner Modelle im Vergleich zum Training mit nur einem Datentyp signifikant verbessert. Diese Erkenntnisse verdeutlichen die Grenzen der direkten Destillation starker Modelle und betonen die Bedeutung der Anpassung der Denkkomplexität für einen effektiven Transfer von Denkfähigkeiten.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling
their reasoning capabilities into smaller models has shown promise. However, we
uncover an interesting phenomenon, which we term the Small Model Learnability
Gap: small models (leq3B parameters) do not consistently benefit from long
chain-of-thought (CoT) reasoning or distillation from larger models. Instead,
they perform better when fine-tuned on shorter, simpler reasoning chains that
better align with their intrinsic learning capacity. To address this, we
propose Mix Distillation, a simple yet effective strategy that balances
reasoning complexity by combining long and short CoT examples or reasoning from
both larger and smaller models. Our experiments demonstrate that Mix
Distillation significantly improves small model reasoning performance compared
to training on either data alone. These findings highlight the limitations of
direct strong model distillation and underscore the importance of adapting
reasoning complexity for effective reasoning capability transfer.Summary
AI-Generated Summary