不可能蒸留:要約と言い換えのための低品質モデルから高品質データセット&モデルへ
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
May 26, 2023
著者: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
cs.AI
要旨
一般的に、最も強力な言語モデル(LM)は、大規模なスケール、指示データ、および人間のフィードバックの組み合わせに依存して、教師なしで要約や言い換えなどの専門的なタスクを実行すると考えられています。本論文では、これら3つの要素を一切必要とせずに、言語モデルが文の要約や言い換えを学習できることを提案します。Impossible Distillationというフレームワークを紹介し、これは、LM自体がタスクを確実に解決できない場合でも、既存のLMから直接タスク固有のデータセットを蒸留するものです。生成されたデータセットで学生モデルを訓練し、自己蒸留を通じてその能力を増幅することで、スケールや教師データを必要とせずに、低品質の教師モデルから高品質なモデルとデータセットを生成します。Impossible Distillationを使用して、770Mパラメータという桁違いに小さいモデルを蒸留し、自動評価と人間評価の両方で、175BパラメータのGPT-3を品質と制御性の両面で上回ることを確認しました。さらに、このアプローチの有用な副産物として、3.4Mの文の要約と言い換えを含む高品質なデータセットDIMSUM+を取得しました。分析の結果、このデータセットは、純粋にLM生成されたコーパスとして、4MサンプルのGigawordを含むすべての人間が作成したデータセットよりも多様性があり、未見のドメインへの汎化においてより効果的であることが示されました。
English
It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.