Unmögliche Destillation: Vom Modell niedriger Qualität zu hochwertigen Datensätzen und Modellen für Zusammenfassung und Paraphrasierung
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
May 26, 2023
Autoren: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
cs.AI
Zusammenfassung
Es wird allgemein angenommen, dass die leistungsstärksten Sprachmodelle (LMs) auf einer Kombination aus enormem Umfang, Instruktionsdaten und menschlichem Feedback beruhen, um spezialisierte Aufgaben – wie Zusammenfassung und Paraphrasierung – ohne Aufsicht auszuführen. In diesem Artikel schlagen wir vor, dass Sprachmodelle lernen können, Sätze zusammenzufassen und zu paraphrasieren, ohne diese drei Faktoren. Wir stellen Impossible Distillation vor, ein Framework, das einen aufgaben-spezifischen Datensatz direkt aus einem Standard-LM destilliert, selbst wenn es für das LM selbst unmöglich ist, die Aufgabe zuverlässig zu lösen. Indem wir ein Schülermodell auf dem generierten Datensatz trainieren und seine Fähigkeiten durch Selbst-Destillation verstärken, erzeugt unsere Methode ein hochwertiges Modell und einen Datensatz aus einem qualitativ minderwertigen Lehrermodell, ohne den Bedarf an Umfang oder Aufsicht. Mit Impossible Distillation können wir ein Modell destillieren, das eine Größenordnung kleiner ist (mit nur 770M Parametern) und das 175B Parameter große GPT-3 sowohl in Qualität als auch Steuerbarkeit übertrifft, wie durch automatische und menschliche Bewertungen bestätigt wird. Darüber hinaus erhalten wir als nützliches Nebenprodukt unseres Ansatzes DIMSUM+, einen hochwertigen Datensatz mit 3,4M Satzzusammenfassungen und Paraphrasen. Unsere Analysen zeigen, dass dieser Datensatz, als rein LM-generiertes Korpus, vielfältiger und effektiver für die Generalisierung auf unbekannte Domänen ist als alle von Menschen erstellten Datensätze – einschließlich Gigaword mit 4M Proben.
English
It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.