RedPajama: 大規模言語モデルのトレーニングのためのオープンデータセットRedPajama: an Open Dataset for Training Large Language Models
大規模言語モデルは、人工知能、科学、そして社会全体においてますます中核技術となっていますが、データセットの構成とフィルタリングの最適戦略は依然としてほとんど解明されていません。多くのトップパフォーマンスを発揮するモデルは、データセットのキュレーションやモデル開発プロセスにおいて透明性を欠いており、完全にオープンな言語モデルの開発に障害をもたらしています。本論文では、オープンソースの言語モデルを進展させるために取り組むべき3つの中核的なデータ関連課題を特定します。それらは、(1) モデル開発における透明性、データキュレーションプロセスを含むこと、(2) 大量の高品質データへのアクセス、および(3) データセットのキュレーションと分析のためのアーティファクトとメタデータの入手可能性です。これらの課題に対処するために、私たちはLLaMAトレーニングデータセットのオープン再現であるRedPajama-V1を公開します。さらに、生のフィルタリングされていないテキストデータと品質信号、メタデータから成る巨大なウェブ専用データセットであるRedPajama-V2を公開します。RedPajamaデータセットは、複数のドメインにまたがる100兆トークン以上を含み、その品質信号によりデータのフィルタリングを容易にし、多くの新しいデータセットの開発を促進することを目指しています。これらのデータセットは既に、本番で使用されている強力な言語モデルのトレーニングに使用されており、例えばSnowflake Arctic、SalesforceのXGen、AI2のOLMoなどがあります。RedPajamaの品質に関する洞察を提供するために、最大1.6Bのパラメータを持つデコーダーのみの言語モデルを用いた一連の分析と除去研究を提示します。私たちの調査結果は、ウェブデータの品質信号を効果的に活用してデータの高品質なサブセットをキュレーションする方法を示し、RedPajamaが透明性と高性能を備えた大規模言語モデルの開発を進展させる潜在能力を強調しています。