ChatPaper.aiChatPaper

Diviser ou Conquérir ? Quelle Partie de Votre Modèle de Langage Devriez-vous Distiller ?

Divide-or-Conquer? Which Part Should You Distill Your LLM?

February 22, 2024
Auteurs: Zhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang
cs.AI

Résumé

Les méthodes récentes ont démontré que les modèles de langage de grande taille (LLMs) peuvent mieux résoudre des tâches de raisonnement lorsqu'ils sont encouragés à traiter d'abord les sous-tâches de la tâche principale. Dans cet article, nous concevons une stratégie similaire qui décompose les tâches de raisonnement en une phase de décomposition du problème et une phase de résolution du problème, et montrons que cette stratégie surpasse une solution en une seule étape. De plus, nous émettons l'hypothèse que la décomposition devrait être plus facile à distiller dans un modèle plus petit par rapport à la résolution du problème, car cette dernière nécessite de grandes quantités de connaissances spécifiques au domaine, tandis que la première ne nécessite que l'apprentissage de stratégies générales de résolution de problèmes. Nous proposons des méthodes pour distiller ces deux capacités et évaluons leur impact sur les résultats du raisonnement et le coût de l'inférence. Nous constatons que nous pouvons distiller la phase de décomposition du problème tout en obtenant une bonne généralisation à travers les tâches, les ensembles de données et les modèles. Cependant, il est plus difficile de distiller la capacité de résolution de problème sans perdre en performance, et le modèle distillé qui en résulte éprouve des difficultés à généraliser. Ces résultats indiquent qu'en utilisant des modèles de décomposition de problème plus petits et distillés en combinaison avec des LLMs de résolution de problème, nous pouvons réaliser un raisonnement avec une inférence rentable et une adaptation locale.
English
Recent methods have demonstrated that Large Language Models (LLMs) can solve reasoning tasks better when they are encouraged to solve subtasks of the main task first. In this paper we devise a similar strategy that breaks down reasoning tasks into a problem decomposition phase and a problem solving phase and show that the strategy is able to outperform a single stage solution. Further, we hypothesize that the decomposition should be easier to distill into a smaller model compared to the problem solving because the latter requires large amounts of domain knowledge while the former only requires learning general problem solving strategies. We propose methods to distill these two capabilities and evaluate their impact on reasoning outcomes and inference cost. We find that we can distill the problem decomposition phase and at the same time achieve good generalization across tasks, datasets, and models. However, it is harder to distill the problem solving capability without losing performance and the resulting distilled model struggles with generalization. These results indicate that by using smaller, distilled problem decomposition models in combination with problem solving LLMs we can achieve reasoning with cost-efficient inference and local adaptation.
PDF241December 15, 2024