Destilación Imposible: de un Modelo de Baja Calidad a un Conjunto de Datos y Modelo de Alta Calidad para Resumen y Paráfrasis
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
May 26, 2023
Autores: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
cs.AI
Resumen
Es comúnmente percibido que los modelos de lenguaje (LMs) más potentes dependen de una combinación de escala masiva, datos de instrucción y retroalimentación humana para realizar tareas especializadas, como la resumen y la paráfrasis, sin supervisión. En este artículo, proponemos que los modelos de lenguaje pueden aprender a resumir y parafrasear oraciones sin ninguno de estos tres factores. Presentamos Impossible Distillation, un marco que destila un conjunto de datos específico para una tarea directamente de un LM estándar, incluso cuando es imposible que el LM mismo resuelva la tarea de manera confiable. Al entrenar un modelo estudiante en el conjunto de datos generado y amplificar su capacidad mediante la auto-distilación, nuestro método produce un modelo y un conjunto de datos de alta calidad a partir de un modelo maestro de baja calidad, sin necesidad de escala o supervisión. Utilizando Impossible Distillation, logramos destilar un modelo un orden de magnitud más pequeño (con solo 770M parámetros) que supera al GPT-3 de 175B parámetros, tanto en calidad como en controlabilidad, según lo confirman evaluaciones automáticas y humanas. Además, como un subproducto útil de nuestro enfoque, obtenemos DIMSUM+, un conjunto de datos de alta calidad con 3.4M resúmenes y paráfrasis de oraciones. Nuestros análisis muestran que este conjunto de datos, como un corpus generado puramente por LM, es más diverso y más efectivo para la generalización a dominios no vistos que todos los conjuntos de datos creados por humanos, incluido Gigaword con 4M muestras.
English
It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.