Destilação Impossível: de Modelo de Baixa Qualidade para Conjunto de Dados e Modelo de Alta Qualidade para Sumarização e Paráfrase

Resumo

É comumente percebido que os modelos de linguagem (LMs) mais poderosos dependem de uma combinação de escala massiva, dados de instrução e feedback humano para realizar tarefas especializadas -- por exemplo, sumarização e paráfrase, sem supervisão. Neste artigo, propomos que os modelos de linguagem podem aprender a sumarizar e parafrasear frases, sem nenhum desses 3 fatores. Apresentamos a Destilação Impossível, uma estrutura que destila um conjunto de dados específico para uma tarefa diretamente de um LM pronto para uso, mesmo quando é impossível para o próprio LM resolver a tarefa de forma confiável. Ao treinar um modelo estudante no conjunto de dados gerado e ampliar sua capacidade por meio de auto-destilação, nosso método produz um modelo e um conjunto de dados de alta qualidade a partir de um modelo professor de baixa qualidade, sem a necessidade de escala ou supervisão. Usando a Destilação Impossível, conseguimos destilar um modelo uma ordem de magnitude menor (com apenas 770M de parâmetros) que supera o GPT-3 de 175B de parâmetros, tanto em qualidade quanto em controlabilidade, conforme confirmado por avaliações automáticas e humanas. Além disso, como um subproduto útil de nossa abordagem, obtemos o DIMSUM+, um conjunto de dados de alta qualidade com 3,4M de resumos e paráfrases de frases. Nossas análises mostram que este conjunto de dados, como um corpus puramente gerado por LM, é mais diverso e mais eficaz para generalização para domínios não vistos do que todos os conjuntos de dados criados por humanos -- incluindo o Gigaword com 4M de amostras.

English

It is commonly perceived that the strongest language models (LMs) rely on a combination of massive scale, instruction data, and human feedback to perform specialized tasks -- e.g. summarization and paraphrasing, without supervision. In this paper, we propose that language models can learn to summarize and paraphrase sentences, with none of these 3 factors. We present Impossible Distillation, a framework that distills a task-specific dataset directly from an off-the-shelf LM, even when it is impossible for the LM itself to reliably solve the task. By training a student model on the generated dataset and amplifying its capability through self-distillation, our method yields a high-quality model and dataset from a low-quality teacher model, without the need for scale or supervision. Using Impossible Distillation, we are able to distill an order of magnitude smaller model (with only 770M parameters) that outperforms 175B parameter GPT-3, in both quality and controllability, as confirmed by automatic and human evaluations. Furthermore, as a useful byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M sentence summaries and paraphrases. Our analyses show that this dataset, as a purely LM-generated corpus, is more diverse and more effective for generalization to unseen domains than all human-authored datasets -- including Gigaword with 4M samples.

Destilação Impossível: de Modelo de Baixa Qualidade para Conjunto de Dados e Modelo de Alta Qualidade para Sumarização e Paráfrase

Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

Resumo

Support