Distillazione Impossibile: da Modello di Bassa Qualità a Dataset e Modello di Alta Qualità per Riassunto e Parafrasi

Abstract

È comunemente ritenuto che i modelli linguistici (LM) più potenti si basino su una combinazione di scala massiccia, dati di istruzione e feedback umano per eseguire compiti specializzati — come la riassunzione e la parafrasi — senza supervisione. In questo articolo, proponiamo che i modelli linguistici possano imparare a riassumere e parafrasare frasi senza nessuno di questi tre fattori. Presentiamo Impossible Distillation, un framework che distilla un dataset specifico per un compito direttamente da un LM preesistente, anche quando è impossibile per il LM stesso risolvere il compito in modo affidabile. Addestrando un modello studente sul dataset generato e amplificando le sue capacità attraverso l'auto-distillazione, il nostro metodo produce un modello e un dataset di alta qualità a partire da un modello insegnante di bassa qualità, senza la necessità di scala o supervisione. Utilizzando Impossible Distillation, siamo in grado di distillare un modello di un ordine di grandezza più piccolo (con soli 770 milioni di parametri) che supera GPT-3 da 175 miliardi di parametri, sia in qualità che controllabilità, come confermato da valutazioni automatiche e umane. Inoltre, come utile sottoprodotto del nostro approccio, otteniamo DIMSUM+, un dataset di alta qualità con 3,4 milioni di riassunti e parafrasi di frasi. Le nostre analisi mostrano che questo dataset, essendo un corpus generato interamente da LM, è più diversificato e più efficace per la generalizzazione a domini non visti rispetto a tutti i dataset creati da esseri umani — incluso Gigaword con 4 milioni di campioni.

English

It is commonly perceived that the strongest language models (LMs) rely on a combination of massive scale, instruction data, and human feedback to perform specialized tasks -- e.g. summarization and paraphrasing, without supervision. In this paper, we propose that language models can learn to summarize and paraphrase sentences, with none of these 3 factors. We present Impossible Distillation, a framework that distills a task-specific dataset directly from an off-the-shelf LM, even when it is impossible for the LM itself to reliably solve the task. By training a student model on the generated dataset and amplifying its capability through self-distillation, our method yields a high-quality model and dataset from a low-quality teacher model, without the need for scale or supervision. Using Impossible Distillation, we are able to distill an order of magnitude smaller model (with only 770M parameters) that outperforms 175B parameter GPT-3, in both quality and controllability, as confirmed by automatic and human evaluations. Furthermore, as a useful byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M sentence summaries and paraphrases. Our analyses show that this dataset, as a purely LM-generated corpus, is more diverse and more effective for generalization to unseen domains than all human-authored datasets -- including Gigaword with 4M samples.

Distillazione Impossibile: da Modello di Bassa Qualità a Dataset e Modello di Alta Qualità per Riassunto e Parafrasi

Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

Abstract

Support