Dolma: Um Corpus Aberto de Três Trilhões de Tokens para Pesquisa em Pré-treinamento de Modelos de Linguagem
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
January 31, 2024
Autores: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
cs.AI
Resumo
Os modelos de linguagem tornaram-se uma tecnologia crucial para abordar uma ampla gama de tarefas de processamento de linguagem natural, mas muitos detalhes sobre como os modelos de linguagem de melhor desempenho foram desenvolvidos não são divulgados. Em particular, informações sobre seus corpora de pré-treinamento raramente são discutidas: modelos de linguagem comerciais raramente fornecem qualquer informação sobre seus dados; mesmo modelos abertos raramente liberam os conjuntos de dados em que foram treinados ou uma receita exata para reproduzi-los. Como resultado, é desafiador conduzir certas linhas de pesquisa em modelagem de linguagem, como entender como os dados de treinamento impactam as capacidades dos modelos e moldam suas limitações. Para facilitar a pesquisa aberta sobre pré-treinamento de modelos de linguagem, lançamos Dolma, um corpus em inglês de três trilhões de tokens, construído a partir de uma mistura diversificada de conteúdo da web, artigos científicos, código, livros de domínio público, mídias sociais e materiais enciclopédicos. Além disso, disponibilizamos nosso kit de ferramentas de curadoria de dados em código aberto para permitir mais experimentações e a reprodução do nosso trabalho. Neste relatório, documentamos o Dolma, incluindo seus princípios de design, detalhes sobre sua construção e um resumo de seu conteúdo. Intercalamos este relatório com análises e resultados experimentais do treinamento de modelos de linguagem em estados intermediários do Dolma para compartilhar o que aprendemos sobre práticas importantes de curadoria de dados, incluindo o papel de filtros de conteúdo ou qualidade, deduplicação e mistura de múltiplas fontes. O Dolma foi usado para treinar o OLMo, um modelo e framework de linguagem aberto de última geração projetado para construir e estudar a ciência da modelagem de linguagem.
English
Language models have become a critical technology to tackling a wide range of
natural language processing tasks, yet many details about how the
best-performing language models were developed are not reported. In particular,
information about their pretraining corpora is seldom discussed: commercial
language models rarely provide any information about their data; even open
models rarely release datasets they are trained on, or an exact recipe to
reproduce them. As a result, it is challenging to conduct certain threads of
language modeling research, such as understanding how training data impacts
model capabilities and shapes their limitations. To facilitate open research on
language model pretraining, we release Dolma, a three trillion tokens English
corpus, built from a diverse mixture of web content, scientific papers, code,
public-domain books, social media, and encyclopedic materials. In addition, we
open source our data curation toolkit to enable further experimentation and
reproduction of our work. In this report, we document Dolma, including its
design principles, details about its construction, and a summary of its
contents. We interleave this report with analyses and experimental results from
training language models on intermediate states of Dolma to share what we have
learned about important data curation practices, including the role of content
or quality filters, deduplication, and multi-source mixing. Dolma has been used
to train OLMo, a state-of-the-art, open language model and framework designed
to build and study the science of language modeling.