ウェブの言い換え:計算効率とデータ効率に優れた言語モデリングのレシピ
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
January 29, 2024
著者: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI
要旨
大規模言語モデルは、ウェブから大規模にスクレイピングされたデータで学習されますが、そのデータはしばしば非構造化でノイズが多く、不適切な表現を含んでいます。現在のスケーリング則によると、そのようなデータから学習するためには、モデルのサイズに比例して計算資源とデータ量が大量に必要となります。これは、事前学習に関連する膨大な計算コストと時間、そしてウェブ上の高品質なデータの不足により実現が困難です。本研究では、ウェブ上のドキュメントを「Wikipedia風」や「質問応答形式」など特定のスタイルで言い換えるために、既存の指示チューニング済みモデルを使用するWeb Rephrase Augmented Pre-training(WRAP)を提案します。これにより、実データと合成された言い換えデータを組み合わせて大規模言語モデルを共同で事前学習します。まず、自然にノイズの多いC4データセットにWRAPを適用することで、事前学習を約3倍高速化できることを示します。同じ事前学習の計算予算で、Pileの異なるサブセット全体で平均10%以上のパープレキシティ改善を達成し、13のタスクにわたるゼロショット質問応答精度を2%以上向上させます。次に、言い換えスタイルがモデルの性能に与える影響を調査し、学習データの構成がOOD設定での大規模言語モデルの性能にどのように影響するかについて洞察を提供します。これらの改善は、合成された言い換えデータが実データよりも高い有用性を持つためであり、その理由は、(i) 下流評価スタイルに密接に反映されるスタイルの多様性を組み込んでいること、(ii) ウェブスクレイピングデータよりも高い「品質」を有していることです。
English
Large language models are trained on massive scrapes of the web, which are
often unstructured, noisy, and poorly phrased. Current scaling laws show that
learning from such data requires an abundance of both compute and data, which
grows with the size of the model being trained. This is infeasible both because
of the large compute costs and duration associated with pre-training, and the
impending scarcity of high-quality data on the web. In this work, we propose
Web Rephrase Augmented Pre-training (WRAP) that uses an
off-the-shelf instruction-tuned model prompted to paraphrase documents on the
web in specific styles such as "like Wikipedia" or in "question-answer format"
to jointly pre-train LLMs on real and synthetic rephrases. First, we show that
using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training
by sim3x. At the same pre-training compute budget, it improves perplexity by
more than 10% on average across different subsets of the Pile, and improves
zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we
investigate the impact of the re-phrasing style on the performance of the
model, offering insights into how the composition of the training data can
impact the performance of LLMs in OOD settings. Our gains are attributed to the
fact that re-phrased synthetic data has higher utility than just real data
because it (i) incorporates style diversity that closely reflects downstream
evaluation style, and (ii) has higher 'quality' than web-scraped data.