ChatPaper.aiChatPaper

Kleine modellen hebben moeite om te leren van sterke redeneerders.

Small Models Struggle to Learn from Strong Reasoners

February 17, 2025
Auteurs: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI

Samenvatting

Grote taalmodellen (LLMs) blinken uit in complexe redeneertaken, en het destilleren van hun redeneervermogen in kleinere modellen heeft veelbelovende resultaten opgeleverd. Wij hebben echter een interessant fenomeen ontdekt, dat we de 'Small Model Learnability Gap' noemen: kleine modellen (≤3B parameters) profiteren niet consistent van lange ketens van redeneringen (chain-of-thought, CoT) of destillatie van grotere modellen. In plaats daarvan presteren ze beter wanneer ze worden afgestemd op kortere, eenvoudigere redeneerketens die beter aansluiten bij hun intrinsieke leervermogen. Om dit aan te pakken, stellen we Mix Distillation voor, een eenvoudige maar effectieve strategie die de complexiteit van redeneringen in balans brengt door lange en korte CoT-voorbeelden te combineren, of redeneringen van zowel grotere als kleinere modellen. Onze experimenten tonen aan dat Mix Distillation de redeneerprestaties van kleine modellen aanzienlijk verbetert in vergelijking met training op slechts één type data. Deze bevindingen benadrukken de beperkingen van directe destillatie van sterke modellen en onderstrepen het belang van het aanpassen van de complexiteit van redeneringen voor een effectieve overdracht van redeneervermogen.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling their reasoning capabilities into smaller models has shown promise. However, we uncover an interesting phenomenon, which we term the Small Model Learnability Gap: small models (leq3B parameters) do not consistently benefit from long chain-of-thought (CoT) reasoning or distillation from larger models. Instead, they perform better when fine-tuned on shorter, simpler reasoning chains that better align with their intrinsic learning capacity. To address this, we propose Mix Distillation, a simple yet effective strategy that balances reasoning complexity by combining long and short CoT examples or reasoning from both larger and smaller models. Our experiments demonstrate that Mix Distillation significantly improves small model reasoning performance compared to training on either data alone. These findings highlight the limitations of direct strong model distillation and underscore the importance of adapting reasoning complexity for effective reasoning capability transfer.

Summary

AI-Generated Summary

PDF376February 20, 2025