불가능한 증류: 요약 및 패러프레이징을 위한 저품질 모델에서 고품질 데이터셋 및 모델로의 전환
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
May 26, 2023
저자: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
cs.AI
초록
일반적으로 가장 강력한 언어 모델(LM)은 대규모 스케일, 명령 데이터, 그리고 인간의 피드백을 결합하여 특수 작업(예: 요약 및 패러프레이징)을 감독 없이 수행하는 것으로 알려져 있습니다. 본 논문에서는 이러한 세 가지 요소 없이도 언어 모델이 문장을 요약하고 패러프레이징하는 방법을 학습할 수 있음을 제안합니다. 우리는 "불가능한 증류(Impossible Distillation)"라는 프레임워크를 제시하며, 이는 기성 언어 모델에서 직접 작업별 데이터셋을 증류하는 방법입니다. 이는 언어 모델 자체가 해당 작업을 안정적으로 해결할 수 없는 경우에도 가능합니다. 생성된 데이터셋을 통해 학생 모델을 훈련하고 자기 증류를 통해 그 능력을 증폭함으로써, 우리의 방법은 스케일이나 감독 없이도 저품질의 교사 모델로부터 고품질의 모델과 데이터셋을 얻을 수 있습니다. 불가능한 증류를 사용하여, 우리는 770M 파라미터만을 가진 모델을 증류할 수 있었으며, 이 모델은 자동 및 인간 평가를 통해 175B 파라미터의 GPT-3를 품질과 제어 가능성 모두에서 능가하는 것으로 확인되었습니다. 또한, 우리의 접근 방식의 유용한 부산물로, 3.4M 개의 문장 요약과 패러프레이즈로 구성된 고품질 데이터셋인 DIMSUM+를 얻었습니다. 우리의 분석에 따르면, 이 데이터셋은 순수하게 언어 모델에 의해 생성된 코퍼스로서, 4M 샘플을 포함한 Gigaword를 포함한 모든 인간이 작성한 데이터셋보다 더 다양하고 보이지 않는 도메인에 대한 일반화에 더 효과적입니다.
English
It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.