Unmögliche Destillation: Vom Modell niedriger Qualität zu hochwertigen Datensätzen und Modellen für Zusammenfassung und Paraphrasierung

Zusammenfassung

Es wird allgemein angenommen, dass die leistungsstärksten Sprachmodelle (LMs) auf einer Kombination aus enormem Umfang, Instruktionsdaten und menschlichem Feedback beruhen, um spezialisierte Aufgaben – wie Zusammenfassung und Paraphrasierung – ohne Aufsicht auszuführen. In diesem Artikel schlagen wir vor, dass Sprachmodelle lernen können, Sätze zusammenzufassen und zu paraphrasieren, ohne diese drei Faktoren. Wir stellen Impossible Distillation vor, ein Framework, das einen aufgaben-spezifischen Datensatz direkt aus einem Standard-LM destilliert, selbst wenn es für das LM selbst unmöglich ist, die Aufgabe zuverlässig zu lösen. Indem wir ein Schülermodell auf dem generierten Datensatz trainieren und seine Fähigkeiten durch Selbst-Destillation verstärken, erzeugt unsere Methode ein hochwertiges Modell und einen Datensatz aus einem qualitativ minderwertigen Lehrermodell, ohne den Bedarf an Umfang oder Aufsicht. Mit Impossible Distillation können wir ein Modell destillieren, das eine Größenordnung kleiner ist (mit nur 770M Parametern) und das 175B Parameter große GPT-3 sowohl in Qualität als auch Steuerbarkeit übertrifft, wie durch automatische und menschliche Bewertungen bestätigt wird. Darüber hinaus erhalten wir als nützliches Nebenprodukt unseres Ansatzes DIMSUM+, einen hochwertigen Datensatz mit 3,4M Satzzusammenfassungen und Paraphrasen. Unsere Analysen zeigen, dass dieser Datensatz, als rein LM-generiertes Korpus, vielfältiger und effektiver für die Generalisierung auf unbekannte Domänen ist als alle von Menschen erstellten Datensätze – einschließlich Gigaword mit 4M Proben.

English

It is commonly perceived that the strongest language models (LMs) rely on a combination of massive scale, instruction data, and human feedback to perform specialized tasks -- e.g. summarization and paraphrasing, without supervision. In this paper, we propose that language models can learn to summarize and paraphrase sentences, with none of these 3 factors. We present Impossible Distillation, a framework that distills a task-specific dataset directly from an off-the-shelf LM, even when it is impossible for the LM itself to reliably solve the task. By training a student model on the generated dataset and amplifying its capability through self-distillation, our method yields a high-quality model and dataset from a low-quality teacher model, without the need for scale or supervision. Using Impossible Distillation, we are able to distill an order of magnitude smaller model (with only 770M parameters) that outperforms 175B parameter GPT-3, in both quality and controllability, as confirmed by automatic and human evaluations. Furthermore, as a useful byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M sentence summaries and paraphrases. Our analyses show that this dataset, as a purely LM-generated corpus, is more diverse and more effective for generalization to unseen domains than all human-authored datasets -- including Gigaword with 4M samples.

Unmögliche Destillation: Vom Modell niedriger Qualität zu hochwertigen Datensätzen und Modellen für Zusammenfassung und Paraphrasierung

Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

Zusammenfassung

Support