Distillation Impossible : d'un modèle de faible qualité à un ensemble de données et un modèle de haute qualité pour la synthèse et la paraphrase
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
May 26, 2023
Auteurs: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
cs.AI
Résumé
Il est communément admis que les modèles de langage (LMs) les plus performants s'appuient sur une combinaison d'échelle massive, de données d'instruction et de feedback humain pour accomplir des tâches spécialisées -- par exemple, la synthétisation et la paraphrase -- sans supervision. Dans cet article, nous proposons que les modèles de langage peuvent apprendre à synthétiser et à paraphraser des phrases, sans aucun de ces trois facteurs. Nous présentons Impossible Distillation, un cadre qui distille un ensemble de données spécifique à une tâche directement à partir d'un modèle de langage standard, même lorsque ce dernier est incapable de résoudre la tâche de manière fiable. En entraînant un modèle étudiant sur l'ensemble de données généré et en amplifiant ses capacités par auto-distillation, notre méthode produit un modèle et un ensemble de données de haute qualité à partir d'un modèle enseignant de faible qualité, sans nécessiter d'échelle massive ni de supervision. Grâce à Impossible Distillation, nous avons pu distiller un modèle d'un ordre de grandeur plus petit (avec seulement 770 millions de paramètres) qui surpasse GPT-3 avec 175 milliards de paramètres, tant en qualité qu'en contrôlabilité, comme le confirment les évaluations automatiques et humaines. De plus, en tant que sous-produit utile de notre approche, nous obtenons DIMSUM+, un ensemble de données de haute qualité contenant 3,4 millions de résumés et paraphrases de phrases. Nos analyses montrent que cet ensemble de données, en tant que corpus généré entièrement par un modèle de langage, est plus diversifié et plus efficace pour la généralisation à des domaines non vus que tous les ensembles de données rédigés par des humains -- y compris Gigaword avec 4 millions d'échantillons.
English
It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.