RedPajama: um Conjunto de Dados Aberto para Treinar Modelos de Linguagem Grandes
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
Autores: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
Resumo
Os grandes modelos de linguagem estão se tornando cada vez mais uma tecnologia fundamental em inteligência artificial, nas ciências e na sociedade como um todo, no entanto, as estratégias ideais para a composição e filtragem de conjuntos de dados ainda são amplamente desconhecidas. Muitos dos modelos de melhor desempenho carecem de transparência em seus processos de curadoria de dados e desenvolvimento de modelos, representando um obstáculo para o desenvolvimento de modelos de linguagem totalmente abertos. Neste artigo, identificamos três desafios principais relacionados a dados que devem ser abordados para avançar nos modelos de linguagem de código aberto. Estes incluem (1) transparência no desenvolvimento do modelo, incluindo o processo de curadoria de dados, (2) acesso a grandes quantidades de dados de alta qualidade e (3) disponibilidade de artefatos e metadados para curadoria e análise de conjuntos de dados. Para enfrentar esses desafios, lançamos o RedPajama-V1, uma reprodução aberta do conjunto de dados de treinamento LLaMA. Além disso, lançamos o RedPajama-V2, um conjunto de dados maciço exclusivamente da web, composto por dados de texto brutos e não filtrados, juntamente com sinais de qualidade e metadados. Juntos, os conjuntos de dados RedPajama abrangem mais de 100 trilhões de tokens em vários domínios e, com seus sinais de qualidade, facilitam a filtragem de dados, com o objetivo de inspirar o desenvolvimento de inúmeros novos conjuntos de dados. Até o momento, esses conjuntos de dados já foram utilizados no treinamento de modelos de linguagem robustos usados em produção, como Snowflake Arctic, XGen da Salesforce e OLMo da AI2. Para fornecer insights sobre a qualidade do RedPajama, apresentamos uma série de análises e estudos de ablação com modelos de linguagem somente decodificadores com até 1,6 bilhão de parâmetros. Nossas descobertas demonstram como os sinais de qualidade para dados da web podem ser efetivamente aproveitados para curar subconjuntos de alta qualidade do conjunto de dados, destacando o potencial do RedPajama para avançar no desenvolvimento de modelos de linguagem transparentes e de alto desempenho em escala.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary