Teilen oder Erobern? Welchen Teil Ihres großen Sprachmodells sollten Sie destillieren?
Divide-or-Conquer? Which Part Should You Distill Your LLM?
February 22, 2024
Autoren: Zhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang
cs.AI
Zusammenfassung
Aktuelle Methoden haben gezeigt, dass Large Language Models (LLMs) Aufgaben des logischen Denkens besser lösen können, wenn sie dazu angeregt werden, zunächst Teilaufgaben der Hauptaufgabe zu bearbeiten. In diesem Artikel entwickeln wir eine ähnliche Strategie, die Denkaufgaben in eine Problemzerlegungsphase und eine Problemlösungsphase unterteilt, und zeigen, dass diese Strategie eine einstufige Lösung übertreffen kann. Weiterhin stellen wir die Hypothese auf, dass die Zerlegung leichter in ein kleineres Modell destilliert werden kann als die Problemlösung, da letztere umfangreiches Domänenwissen erfordert, während erstere lediglich das Erlernen allgemeiner Problemlösungsstrategien benötigt. Wir schlagen Methoden vor, um diese beiden Fähigkeiten zu destillieren, und bewerten deren Auswirkungen auf die Denkergebnisse und die Inferenzkosten. Wir stellen fest, dass wir die Problemzerlegungsphase destillieren können und gleichzeitig eine gute Generalisierung über Aufgaben, Datensätze und Modelle hinweg erreichen. Es ist jedoch schwieriger, die Problemlösungsfähigkeit zu destillieren, ohne an Leistung einzubüßen, und das resultierende destillierte Modell hat Schwierigkeiten mit der Generalisierung. Diese Ergebnisse deuten darauf hin, dass wir durch die Verwendung kleinerer, destillierter Problemzerlegungsmodelle in Kombination mit Problemlösungs-LLMs logisches Denken mit kosteneffizienter Inferenz und lokaler Anpassung erreichen können.
English
Recent methods have demonstrated that Large Language Models (LLMs) can solve
reasoning tasks better when they are encouraged to solve subtasks of the main
task first. In this paper we devise a similar strategy that breaks down
reasoning tasks into a problem decomposition phase and a problem solving phase
and show that the strategy is able to outperform a single stage solution.
Further, we hypothesize that the decomposition should be easier to distill into
a smaller model compared to the problem solving because the latter requires
large amounts of domain knowledge while the former only requires learning
general problem solving strategies. We propose methods to distill these two
capabilities and evaluate their impact on reasoning outcomes and inference
cost. We find that we can distill the problem decomposition phase and at the
same time achieve good generalization across tasks, datasets, and models.
However, it is harder to distill the problem solving capability without losing
performance and the resulting distilled model struggles with generalization.
These results indicate that by using smaller, distilled problem decomposition
models in combination with problem solving LLMs we can achieve reasoning with
cost-efficient inference and local adaptation.