Onmogelijke Destillatie: van Laagkwalitatief Model naar Hoogkwalitatieve Dataset & Model voor Samenvatting en Parafrasering

Samenvatting

Het is algemeen bekend dat de sterkste taalmodelen (LMs) vertrouwen op een combinatie van enorme schaal, instructiedata en menselijke feedback om gespecialiseerde taken uit te voeren — zoals samenvatten en parafraseren, zonder supervisie. In dit artikel stellen we voor dat taalmodelen kunnen leren om zinnen samen te vatten en te parafraseren, zonder deze drie factoren. We introduceren Impossible Distillation, een raamwerk dat een taakspecifieke dataset direct destilleert uit een standaard LM, zelfs wanneer het onmogelijk is voor het LM zelf om de taak betrouwbaar op te lossen. Door een studentmodel te trainen op de gegenereerde dataset en zijn capaciteit te versterken via zelfdistillatie, levert onze methode een hoogwaardig model en dataset op vanuit een laagwaardig leraarmodel, zonder de noodzaak van schaal of supervisie. Met Impossible Distillation zijn we in staat om een model te distilleren dat een orde van grootte kleiner is (met slechts 770M parameters) en dat 175B parameter GPT-3 overtreft, zowel in kwaliteit als beheersbaarheid, zoals bevestigd door automatische en menselijke evaluaties. Bovendien verkrijgen we als een nuttig bijproduct van onze aanpak DIMSUM+, een hoogwaardige dataset met 3.4M zinsamenvattingen en parafrases. Onze analyses tonen aan dat deze dataset, als een puur LM-gegenereerd corpus, diverser en effectiever is voor generalisatie naar onbekende domeinen dan alle door mensen geschreven datasets — inclusief Gigaword met 4M samples.

English

It is commonly perceived that the strongest language models (LMs) rely on a combination of massive scale, instruction data, and human feedback to perform specialized tasks -- e.g. summarization and paraphrasing, without supervision. In this paper, we propose that language models can learn to summarize and paraphrase sentences, with none of these 3 factors. We present Impossible Distillation, a framework that distills a task-specific dataset directly from an off-the-shelf LM, even when it is impossible for the LM itself to reliably solve the task. By training a student model on the generated dataset and amplifying its capability through self-distillation, our method yields a high-quality model and dataset from a low-quality teacher model, without the need for scale or supervision. Using Impossible Distillation, we are able to distill an order of magnitude smaller model (with only 770M parameters) that outperforms 175B parameter GPT-3, in both quality and controllability, as confirmed by automatic and human evaluations. Furthermore, as a useful byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M sentence summaries and paraphrases. Our analyses show that this dataset, as a purely LM-generated corpus, is more diverse and more effective for generalization to unseen domains than all human-authored datasets -- including Gigaword with 4M samples.

Onmogelijke Destillatie: van Laagkwalitatief Model naar Hoogkwalitatieve Dataset & Model voor Samenvatting en Parafrasering

Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

Samenvatting

Support