RedPajama:用於訓練大型語言模型的開放數據集RedPajama: an Open Dataset for Training Large Language Models
大型語言模型正日益成為人工智慧、科學和整個社會的基石技術,然而有關數據集組成和過濾的最佳策略仍然大多數不明確。許多表現優異的模型在其數據策劃和模型開發過程中缺乏透明度,這對於全面開放的語言模型的發展構成障礙。在本文中,我們確定了必須解決的三個與數據相關的核心挑戰,以推進開源語言模型。這些挑戰包括:(1) 模型開發的透明度,包括數據策劃過程,(2) 獲取大量高質量數據,以及 (3) 提供用於數據策劃和分析的工件和元數據。為了應對這些挑戰,我們發布了RedPajama-V1,這是LLaMA訓練數據集的開放再現。此外,我們還發布了RedPajama-V2,這是一個龐大的僅限網絡的數據集,包括原始、未過濾的文本數據,以及質量信號和元數據。這兩個RedPajama數據集總共包含超過100萬億標記,涵蓋多個領域,其質量信號有助於數據的過濾,旨在激發眾多新數據集的開發。迄今為止,這些數據集已經在生產中使用的強大語言模型的訓練中被使用,例如Snowflake Arctic、Salesforce的XGen和AI2的OLMo。為了提供有關RedPajama質量的見解,我們提出了一系列分析和消融研究,使用了高達16億參數的僅解碼器語言模型。我們的研究結果顯示,網絡數據的質量信號可以有效地利用來策劃數據的高質量子集,突顯了RedPajama在推動透明和高性能語言模型大規模發展方面的潛力。