Formation d'experts en tâches par distillation basée sur la récupération

papers.abstract

L'une des méthodes les plus fiables pour créer des modèles déployables pour des tâches spécialisées consiste à obtenir une quantité adéquate de données spécifiques de haute qualité. Cependant, pour les tâches spécialisées, de tels ensembles de données n'existent souvent pas. Les méthodes existantes abordent ce problème en générant ces données à partir de grands modèles de langage (LLMs), puis en distillant ces connaissances dans des modèles plus petits. Cependant, ces méthodes sont limitées par la qualité des sorties des LLMs et ont tendance à générer des données répétitives ou incorrectes. Dans ce travail, nous présentons la Distillation Basée sur la Récupération (ReBase), une méthode qui récupère d'abord des données à partir de sources en ligne riches, puis les transforme en données spécifiques à un domaine. Cette méthode améliore considérablement la diversité des données. De plus, ReBase génère un raisonnement en chaîne de pensée (Chain-of-Thought) et distille la capacité de raisonnement des LLMs. Nous testons notre méthode sur 4 benchmarks, et les résultats montrent que notre méthode améliore significativement les performances jusqu'à 7,8 % sur SQuAD, 1,37 % sur MNLI et 1,94 % sur BigBench-Hard.

English

One of the most reliable ways to create deployable models for specialized tasks is to obtain an adequate amount of high-quality task-specific data. However, for specialized tasks, often such datasets do not exist. Existing methods address this by creating such data from large language models (LLMs) and then distilling such knowledge into smaller models. However, these methods are limited by the quality of the LLMs output, and tend to generate repetitive or incorrect data. In this work, we present Retrieval Based Distillation (ReBase), a method that first retrieves data from rich online sources and then transforms them into domain-specific data. This method greatly enhances data diversity. Moreover, ReBase generates Chain-of-Thought reasoning and distills the reasoning capacity of LLMs. We test our method on 4 benchmarks and results show that our method significantly improves performance by up to 7.8% on SQuAD, 1.37% on MNLI, and 1.94% on BigBench-Hard.

Formation d'experts en tâches par distillation basée sur la récupération

Training Task Experts through Retrieval Based Distillation

papers.abstract

Support