ChatPaper.aiChatPaper

RedPajama: um Conjunto de Dados Aberto para Treinar Modelos de Linguagem Grandes

RedPajama: an Open Dataset for Training Large Language Models

November 19, 2024
Autores: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI

Resumo

Os grandes modelos de linguagem estão se tornando cada vez mais uma tecnologia fundamental em inteligência artificial, nas ciências e na sociedade como um todo, no entanto, as estratégias ideais para a composição e filtragem de conjuntos de dados ainda são amplamente desconhecidas. Muitos dos modelos de melhor desempenho carecem de transparência em seus processos de curadoria de dados e desenvolvimento de modelos, representando um obstáculo para o desenvolvimento de modelos de linguagem totalmente abertos. Neste artigo, identificamos três desafios principais relacionados a dados que devem ser abordados para avançar nos modelos de linguagem de código aberto. Estes incluem (1) transparência no desenvolvimento do modelo, incluindo o processo de curadoria de dados, (2) acesso a grandes quantidades de dados de alta qualidade e (3) disponibilidade de artefatos e metadados para curadoria e análise de conjuntos de dados. Para enfrentar esses desafios, lançamos o RedPajama-V1, uma reprodução aberta do conjunto de dados de treinamento LLaMA. Além disso, lançamos o RedPajama-V2, um conjunto de dados maciço exclusivamente da web, composto por dados de texto brutos e não filtrados, juntamente com sinais de qualidade e metadados. Juntos, os conjuntos de dados RedPajama abrangem mais de 100 trilhões de tokens em vários domínios e, com seus sinais de qualidade, facilitam a filtragem de dados, com o objetivo de inspirar o desenvolvimento de inúmeros novos conjuntos de dados. Até o momento, esses conjuntos de dados já foram utilizados no treinamento de modelos de linguagem robustos usados em produção, como Snowflake Arctic, XGen da Salesforce e OLMo da AI2. Para fornecer insights sobre a qualidade do RedPajama, apresentamos uma série de análises e estudos de ablação com modelos de linguagem somente decodificadores com até 1,6 bilhão de parâmetros. Nossas descobertas demonstram como os sinais de qualidade para dados da web podem ser efetivamente aproveitados para curar subconjuntos de alta qualidade do conjunto de dados, destacando o potencial do RedPajama para avançar no desenvolvimento de modelos de linguagem transparentes e de alto desempenho em escala.
English
Large language models are increasingly becoming a cornerstone technology in artificial intelligence, the sciences, and society as a whole, yet the optimal strategies for dataset composition and filtering remain largely elusive. Many of the top-performing models lack transparency in their dataset curation and model development processes, posing an obstacle to the development of fully open language models. In this paper, we identify three core data-related challenges that must be addressed to advance open-source language models. These include (1) transparency in model development, including the data curation process, (2) access to large quantities of high-quality data, and (3) availability of artifacts and metadata for dataset curation and analysis. To address these challenges, we release RedPajama-V1, an open reproduction of the LLaMA training dataset. In addition, we release RedPajama-V2, a massive web-only dataset consisting of raw, unfiltered text data together with quality signals and metadata. Together, the RedPajama datasets comprise over 100 trillion tokens spanning multiple domains and with their quality signals facilitate the filtering of data, aiming to inspire the development of numerous new datasets. To date, these datasets have already been used in the training of strong language models used in production, such as Snowflake Arctic, Salesforce's XGen and AI2's OLMo. To provide insight into the quality of RedPajama, we present a series of analyses and ablation studies with decoder-only language models with up to 1.6B parameters. Our findings demonstrate how quality signals for web data can be effectively leveraged to curate high-quality subsets of the dataset, underscoring the potential of RedPajama to advance the development of transparent and high-performing language models at scale.

Summary

AI-Generated Summary

PDF563November 20, 2024