Distillazione Impossibile: da Modello di Bassa Qualità a Dataset e Modello di Alta Qualità per Riassunto e Parafrasi
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
May 26, 2023
Autori: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
cs.AI
Abstract
È comunemente ritenuto che i modelli linguistici (LM) più potenti si basino su una combinazione di scala massiccia, dati di istruzione e feedback umano per eseguire compiti specializzati — come la riassunzione e la parafrasi — senza supervisione. In questo articolo, proponiamo che i modelli linguistici possano imparare a riassumere e parafrasare frasi senza nessuno di questi tre fattori. Presentiamo Impossible Distillation, un framework che distilla un dataset specifico per un compito direttamente da un LM preesistente, anche quando è impossibile per il LM stesso risolvere il compito in modo affidabile. Addestrando un modello studente sul dataset generato e amplificando le sue capacità attraverso l'auto-distillazione, il nostro metodo produce un modello e un dataset di alta qualità a partire da un modello insegnante di bassa qualità, senza la necessità di scala o supervisione. Utilizzando Impossible Distillation, siamo in grado di distillare un modello di un ordine di grandezza più piccolo (con soli 770 milioni di parametri) che supera GPT-3 da 175 miliardi di parametri, sia in qualità che controllabilità, come confermato da valutazioni automatiche e umane. Inoltre, come utile sottoprodotto del nostro approccio, otteniamo DIMSUM+, un dataset di alta qualità con 3,4 milioni di riassunti e parafrasi di frasi. Le nostre analisi mostrano che questo dataset, essendo un corpus generato interamente da LM, è più diversificato e più efficace per la generalizzazione a domini non visti rispetto a tutti i dataset creati da esseri umani — incluso Gigaword con 4 milioni di campioni.
English
It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.