RedPajama:用于训练大型语言模型的开放数据集RedPajama: an Open Dataset for Training Large Language Models
大型语言模型正日益成为人工智能、科学和整个社会的基石技术,然而有关数据集构成和过滤的最佳策略仍然大多数情况下难以捉摸。许多表现最佳的模型在数据集策划和模型开发过程中缺乏透明度,这对于全面开放的语言模型的发展构成了障碍。本文中,我们确定了必须解决的三个核心与数据相关的挑战,以推动开源语言模型的发展。这些挑战包括:(1)模型开发中的透明度,包括数据策划过程,(2)获取大量高质量数据,以及(3)数据集策划和分析的文物和元数据的可用性。为了解决这些挑战,我们发布了RedPajama-V1,LLaMA训练数据集的开放复制品。此外,我们发布了RedPajama-V2,一个庞大的仅限网络的数据集,包含原始、未经过滤的文本数据,以及质量信号和元数据。这两个RedPajama数据集共涵盖超过100万亿标记,涵盖多个领域,其质量信号有助于数据的过滤,旨在激发众多新数据集的开发。迄今为止,这些数据集已被用于训练用于生产的强大语言模型,如Snowflake Arctic、Salesforce的XGen和AI2的OLMo。为了提供关于RedPajama质量的见解,我们使用高达16亿参数的仅解码器语言模型进行了一系列分析和消融研究。我们的发现表明,网络数据的质量信号可以有效利用,以策划数据集的高质量子集,突显了RedPajama在推动透明和高性能语言模型大规模发展方面的潜力。