Dolma: Um Corpus Aberto de Três Trilhões de Tokens para Pesquisa em Pré-treinamento de Modelos de Linguagem

Resumo

Os modelos de linguagem tornaram-se uma tecnologia crucial para abordar uma ampla gama de tarefas de processamento de linguagem natural, mas muitos detalhes sobre como os modelos de linguagem de melhor desempenho foram desenvolvidos não são divulgados. Em particular, informações sobre seus corpora de pré-treinamento raramente são discutidas: modelos de linguagem comerciais raramente fornecem qualquer informação sobre seus dados; mesmo modelos abertos raramente liberam os conjuntos de dados em que foram treinados ou uma receita exata para reproduzi-los. Como resultado, é desafiador conduzir certas linhas de pesquisa em modelagem de linguagem, como entender como os dados de treinamento impactam as capacidades dos modelos e moldam suas limitações. Para facilitar a pesquisa aberta sobre pré-treinamento de modelos de linguagem, lançamos Dolma, um corpus em inglês de três trilhões de tokens, construído a partir de uma mistura diversificada de conteúdo da web, artigos científicos, código, livros de domínio público, mídias sociais e materiais enciclopédicos. Além disso, disponibilizamos nosso kit de ferramentas de curadoria de dados em código aberto para permitir mais experimentações e a reprodução do nosso trabalho. Neste relatório, documentamos o Dolma, incluindo seus princípios de design, detalhes sobre sua construção e um resumo de seu conteúdo. Intercalamos este relatório com análises e resultados experimentais do treinamento de modelos de linguagem em estados intermediários do Dolma para compartilhar o que aprendemos sobre práticas importantes de curadoria de dados, incluindo o papel de filtros de conteúdo ou qualidade, deduplicação e mistura de múltiplas fontes. O Dolma foi usado para treinar o OLMo, um modelo e framework de linguagem aberto de última geração projetado para construir e estudar a ciência da modelagem de linguagem.

English

Language models have become a critical technology to tackling a wide range of natural language processing tasks, yet many details about how the best-performing language models were developed are not reported. In particular, information about their pretraining corpora is seldom discussed: commercial language models rarely provide any information about their data; even open models rarely release datasets they are trained on, or an exact recipe to reproduce them. As a result, it is challenging to conduct certain threads of language modeling research, such as understanding how training data impacts model capabilities and shapes their limitations. To facilitate open research on language model pretraining, we release Dolma, a three trillion tokens English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. In addition, we open source our data curation toolkit to enable further experimentation and reproduction of our work. In this report, we document Dolma, including its design principles, details about its construction, and a summary of its contents. We interleave this report with analyses and experimental results from training language models on intermediate states of Dolma to share what we have learned about important data curation practices, including the role of content or quality filters, deduplication, and multi-source mixing. Dolma has been used to train OLMo, a state-of-the-art, open language model and framework designed to build and study the science of language modeling.

Dolma: Um Corpus Aberto de Três Trilhões de Tokens para Pesquisa em Pré-treinamento de Modelos de Linguagem

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Resumo

Support