Exploiter la connaissance ouverte pour faire progresser l'expertise des tâches dans les grands modèles de langage.
Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models
August 28, 2024
Auteurs: Yuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yucheng Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu
cs.AI
Résumé
La cultivation de l'expertise pour les grands modèles de langage (GML) afin de résoudre des tâches spécifiques nécessite souvent un réglage spécialisé avec des comportements calibrés sur les sorties stables attendues. Pour éviter les coûts énormes liés à la préparation manuelle de jeux de données d'instructions et de ressources de formation pouvant atteindre des centaines d'heures, l'exploitation des connaissances ouvertes, y compris une multitude de modèles d'adaptation de faible rang (LoRA) et de jeux de données d'instructions, sert de bon point de départ. Cependant, les méthodes existantes de sélection de modèles et de données se concentrent sur les performances des capacités polyvalentes tout en négligeant l'écart de connaissances exposé dans le déploiement spécifique au domaine. Dans la présente étude, nous proposons de combler cet écart en introduisant quelques échantillons annotés par des humains (c'est-à-dire, K-shot) pour faire progresser l'expertise des GML avec des connaissances ouvertes. Plus précisément, nous développons un pipeline efficace et évolutif pour produire de manière rentable des experts en tâches où les données K-shot interviennent dans la sélection des candidats experts les plus prometteurs et des instructions pertinentes pour la tâche. Un système de mélange d'experts (MoE) est construit pour tirer le meilleur parti des connaissances individuelles mais complémentaires entre plusieurs experts. Nous révélons les deux clés du succès d'un système MoE, 1) le respect de K-shot, et 2) l'insistance sur la diversité. Pour le premier point, nous nous assurons que les modèles qui possèdent réellement des capacités de résolution de problèmes sur K-shot sont sélectionnés plutôt que les devineurs aveugles. De plus, lors de la sélection des données, les instructions partageant des contextes pertinents pour la tâche avec K-shot sont priorisées. Pour le second point, nous mettons en avant la diversité des experts constitutifs et celle des instructions de peaufinage tout au long du processus de sélection de modèles et de données. Des résultats expérimentaux approfondis confirment la supériorité de notre approche par rapport aux méthodes existantes sur l'utilisation des connaissances ouvertes dans diverses tâches. Les codes et les modèles seront publiés ultérieurement.
English
The cultivation of expertise for large language models (LLMs) to solve tasks
of specific areas often requires special-purpose tuning with calibrated
behaviors on the expected stable outputs. To avoid huge cost brought by manual
preparation of instruction datasets and training resources up to hundreds of
hours, the exploitation of open knowledge including a wealth of low rank
adaptation (LoRA) models and instruction datasets serves as a good starting
point. However, existing methods on model and data selection focus on the
performance of general-purpose capabilities while neglecting the knowledge gap
exposed in domain-specific deployment. In the present study, we propose to
bridge such gap by introducing few human-annotated samples (i.e., K-shot) for
advancing task expertise of LLMs with open knowledge. Specifically, we develop
an efficient and scalable pipeline to cost-efficiently produce task experts
where K-shot data intervene in selecting the most promising expert candidates
and the task-relevant instructions. A mixture-of-expert (MoE) system is built
to make the best use of individual-yet-complementary knowledge between multiple
experts. We unveil the two keys to the success of a MoE system, 1) the abidance
by K-shot, and 2) the insistence on diversity. For the former, we ensure that
models that truly possess problem-solving abilities on K-shot are selected
rather than those blind guessers. Besides, during data selection, instructions
that share task-relevant contexts with K-shot are prioritized. For the latter,
we highlight the diversity of constituting experts and that of the fine-tuning
instructions throughout the model and data selection process. Extensive
experimental results confirm the superiority of our approach over existing
methods on utilization of open knowledge across various tasks. Codes and models
will be released later.Summary
AI-Generated Summary