Teilen oder Erobern? Welchen Teil Ihres großen Sprachmodells sollten Sie destillieren?

papers.abstract

Aktuelle Methoden haben gezeigt, dass Large Language Models (LLMs) Aufgaben des logischen Denkens besser lösen können, wenn sie dazu angeregt werden, zunächst Teilaufgaben der Hauptaufgabe zu bearbeiten. In diesem Artikel entwickeln wir eine ähnliche Strategie, die Denkaufgaben in eine Problemzerlegungsphase und eine Problemlösungsphase unterteilt, und zeigen, dass diese Strategie eine einstufige Lösung übertreffen kann. Weiterhin stellen wir die Hypothese auf, dass die Zerlegung leichter in ein kleineres Modell destilliert werden kann als die Problemlösung, da letztere umfangreiches Domänenwissen erfordert, während erstere lediglich das Erlernen allgemeiner Problemlösungsstrategien benötigt. Wir schlagen Methoden vor, um diese beiden Fähigkeiten zu destillieren, und bewerten deren Auswirkungen auf die Denkergebnisse und die Inferenzkosten. Wir stellen fest, dass wir die Problemzerlegungsphase destillieren können und gleichzeitig eine gute Generalisierung über Aufgaben, Datensätze und Modelle hinweg erreichen. Es ist jedoch schwieriger, die Problemlösungsfähigkeit zu destillieren, ohne an Leistung einzubüßen, und das resultierende destillierte Modell hat Schwierigkeiten mit der Generalisierung. Diese Ergebnisse deuten darauf hin, dass wir durch die Verwendung kleinerer, destillierter Problemzerlegungsmodelle in Kombination mit Problemlösungs-LLMs logisches Denken mit kosteneffizienter Inferenz und lokaler Anpassung erreichen können.

English

Recent methods have demonstrated that Large Language Models (LLMs) can solve reasoning tasks better when they are encouraged to solve subtasks of the main task first. In this paper we devise a similar strategy that breaks down reasoning tasks into a problem decomposition phase and a problem solving phase and show that the strategy is able to outperform a single stage solution. Further, we hypothesize that the decomposition should be easier to distill into a smaller model compared to the problem solving because the latter requires large amounts of domain knowledge while the former only requires learning general problem solving strategies. We propose methods to distill these two capabilities and evaluate their impact on reasoning outcomes and inference cost. We find that we can distill the problem decomposition phase and at the same time achieve good generalization across tasks, datasets, and models. However, it is harder to distill the problem solving capability without losing performance and the resulting distilled model struggles with generalization. These results indicate that by using smaller, distilled problem decomposition models in combination with problem solving LLMs we can achieve reasoning with cost-efficient inference and local adaptation.

Teilen oder Erobern? Welchen Teil Ihres großen Sprachmodells sollten Sie destillieren?

Divide-or-Conquer? Which Part Should You Distill Your LLM?

papers.abstract

Support