RedPajama: 大規模言語モデルのトレーニングのためのオープンデータセット
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
著者: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
要旨
大規模言語モデルは、人工知能、科学、そして社会全体においてますます中核技術となっていますが、データセットの構成とフィルタリングの最適戦略は依然としてほとんど解明されていません。多くのトップパフォーマンスを発揮するモデルは、データセットのキュレーションやモデル開発プロセスにおいて透明性を欠いており、完全にオープンな言語モデルの開発に障害をもたらしています。本論文では、オープンソースの言語モデルを進展させるために取り組むべき3つの中核的なデータ関連課題を特定します。それらは、(1) モデル開発における透明性、データキュレーションプロセスを含むこと、(2) 大量の高品質データへのアクセス、および(3) データセットのキュレーションと分析のためのアーティファクトとメタデータの入手可能性です。これらの課題に対処するために、私たちはLLaMAトレーニングデータセットのオープン再現であるRedPajama-V1を公開します。さらに、生のフィルタリングされていないテキストデータと品質信号、メタデータから成る巨大なウェブ専用データセットであるRedPajama-V2を公開します。RedPajamaデータセットは、複数のドメインにまたがる100兆トークン以上を含み、その品質信号によりデータのフィルタリングを容易にし、多くの新しいデータセットの開発を促進することを目指しています。これらのデータセットは既に、本番で使用されている強力な言語モデルのトレーニングに使用されており、例えばSnowflake Arctic、SalesforceのXGen、AI2のOLMoなどがあります。RedPajamaの品質に関する洞察を提供するために、最大1.6Bのパラメータを持つデコーダーのみの言語モデルを用いた一連の分析と除去研究を提示します。私たちの調査結果は、ウェブデータの品質信号を効果的に活用してデータの高品質なサブセットをキュレーションする方法を示し、RedPajamaが透明性と高性能を備えた大規模言語モデルの開発を進展させる潜在能力を強調しています。
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary