Невозможная дистилляция: от низкокачественной модели к высококачественному набору данных и модели для суммаризации и перефразирования
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
May 26, 2023
Авторы: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
cs.AI
Аннотация
Широко распространено мнение, что наиболее мощные языковые модели (LM) полагаются на комбинацию огромного масштаба, обучающих данных и обратной связи от человека для выполнения специализированных задач, таких как суммаризация и перефразирование, без какого-либо контроля. В данной статье мы утверждаем, что языковые модели могут научиться суммаризировать и перефразировать предложения без использования этих трех факторов. Мы представляем метод Impossible Distillation (Невозможная Дистилляция) — фреймворк, который дистиллирует набор данных для конкретной задачи непосредственно из готовой языковой модели, даже если сама модель не способна надежно решать эту задачу. Обучая студенческую модель на сгенерированном наборе данных и усиливая её возможности через само-дистилляцию, наш метод позволяет получить высококачественную модель и набор данных из низкокачественной учительской модели, без необходимости масштабирования или контроля. С помощью Impossible Distillation мы смогли дистиллировать модель на порядок меньшего размера (всего 770 млн параметров), которая превосходит GPT-3 с 175 млрд параметров как по качеству, так и по управляемости, что подтверждается автоматическими и человеческими оценками. Кроме того, в качестве полезного побочного продукта нашего подхода мы получаем DIMSUM+ — высококачественный набор данных, содержащий 3,4 млн суммаризированных и перефразированных предложений. Наши анализы показывают, что этот набор данных, будучи полностью сгенерированным языковой моделью, более разнообразен и эффективен для обобщения на неизвестные домены, чем все наборы данных, созданные человеком, включая Gigaword с 4 млн образцов.
English
It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.