RedPajama: um Conjunto de Dados Aberto para Treinar Modelos de Linguagem GrandesRedPajama: an Open Dataset for Training Large Language Models
Os grandes modelos de linguagem estão se tornando cada vez mais uma tecnologia fundamental em inteligência artificial, nas ciências e na sociedade como um todo, no entanto, as estratégias ideais para a composição e filtragem de conjuntos de dados ainda são amplamente desconhecidas. Muitos dos modelos de melhor desempenho carecem de transparência em seus processos de curadoria de dados e desenvolvimento de modelos, representando um obstáculo para o desenvolvimento de modelos de linguagem totalmente abertos. Neste artigo, identificamos três desafios principais relacionados a dados que devem ser abordados para avançar nos modelos de linguagem de código aberto. Estes incluem (1) transparência no desenvolvimento do modelo, incluindo o processo de curadoria de dados, (2) acesso a grandes quantidades de dados de alta qualidade e (3) disponibilidade de artefatos e metadados para curadoria e análise de conjuntos de dados. Para enfrentar esses desafios, lançamos o RedPajama-V1, uma reprodução aberta do conjunto de dados de treinamento LLaMA. Além disso, lançamos o RedPajama-V2, um conjunto de dados maciço exclusivamente da web, composto por dados de texto brutos e não filtrados, juntamente com sinais de qualidade e metadados. Juntos, os conjuntos de dados RedPajama abrangem mais de 100 trilhões de tokens em vários domínios e, com seus sinais de qualidade, facilitam a filtragem de dados, com o objetivo de inspirar o desenvolvimento de inúmeros novos conjuntos de dados. Até o momento, esses conjuntos de dados já foram utilizados no treinamento de modelos de linguagem robustos usados em produção, como Snowflake Arctic, XGen da Salesforce e OLMo da AI2. Para fornecer insights sobre a qualidade do RedPajama, apresentamos uma série de análises e estudos de ablação com modelos de linguagem somente decodificadores com até 1,6 bilhão de parâmetros. Nossas descobertas demonstram como os sinais de qualidade para dados da web podem ser efetivamente aproveitados para curar subconjuntos de alta qualidade do conjunto de dados, destacando o potencial do RedPajama para avançar no desenvolvimento de modelos de linguagem transparentes e de alto desempenho em escala.