Falcon LLMのためのRefinedWebデータセット:キュレーションされたコーパスを凌駕するウェブデータ、そしてウェブデータのみ
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
June 1, 2023
著者: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
cs.AI
要旨
大規模言語モデルは通常、フィルタリングされたウェブデータと、ソーシャルメディアの会話、書籍、技術論文などのキュレーションされた高品質コーパスの混合で訓練されます。このキュレーションプロセスは、幅広いゼロショット汎化能力を持つ高性能なモデルを生成するために必要であると考えられています。しかし、数兆トークンの事前学習を必要とするより大規模なモデルが検討されるにつれ、キュレーションのスケーラビリティや、近い将来にユニークな高品質データが枯渇するかどうかは不明です。これまでの通説とは異なり、適切にフィルタリングされ重複排除されたウェブデータのみでも強力なモデルを生成できることを示します。さらに、The Pileで訓練された最先端のモデルを大幅に上回る性能を発揮します。広範なフィルタリングにもかかわらず、ウェブから抽出した高品質データは依然として豊富であり、CommonCrawlから5兆トークンを取得することが可能です。私たちは、RefinedWebデータセットから抽出した6000億トークンのサンプルと、それに基づいて訓練された1.3B/7.5Bパラメータの言語モデルを公開します。
English
Large language models are commonly trained on a mixture of filtered web data
and curated high-quality corpora, such as social media conversations, books, or
technical papers. This curation process is believed to be necessary to produce
performant models with broad zero-shot generalization abilities. However, as
larger models requiring pretraining on trillions of tokens are considered, it
is unclear how scalable is curation and whether we will run out of unique
high-quality data soon. At variance with previous beliefs, we show that
properly filtered and deduplicated web data alone can lead to powerful models;
even significantly outperforming models from the state-of-the-art trained on
The Pile. Despite extensive filtering, the high-quality data we extract from
the web is still plentiful, and we are able to obtain five trillion tokens from
CommonCrawl. We publicly release an extract of 600 billion tokens from our
RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.