Dolma : un corpus ouvert de trois mille milliards de tokens pour la recherche en prétraitement de modèles de langage
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
January 31, 2024
papers.authors: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
cs.AI
papers.abstract
Les modèles de langage sont devenus une technologie essentielle pour aborder un large éventail de tâches de traitement du langage naturel, mais de nombreux détails sur la manière dont les modèles de langage les plus performants ont été développés ne sont pas divulgués. En particulier, les informations concernant leurs corpus de pré-entraînement sont rarement discutées : les modèles de langage commerciaux fournissent rarement des informations sur leurs données ; même les modèles ouverts publient peu les jeux de données sur lesquels ils sont entraînés, ou une recette exacte pour les reproduire. Par conséquent, il est difficile de mener certaines recherches sur la modélisation du langage, comme comprendre comment les données d'entraînement influencent les capacités des modèles et façonnent leurs limites. Pour faciliter la recherche ouverte sur le pré-entraînement des modèles de langage, nous publions Dolma, un corpus anglais de trois mille milliards de tokens, construit à partir d'un mélange diversifié de contenus web, d'articles scientifiques, de code, de livres du domaine public, de médias sociaux et de matériaux encyclopédiques. De plus, nous rendons open source notre boîte à outils de curation de données pour permettre des expérimentations supplémentaires et la reproduction de notre travail. Dans ce rapport, nous documentons Dolma, y compris ses principes de conception, les détails de sa construction et un résumé de son contenu. Nous intercalons ce rapport avec des analyses et des résultats expérimentaux issus de l'entraînement de modèles de langage sur des états intermédiaires de Dolma, afin de partager ce que nous avons appris sur les pratiques importantes de curation de données, y compris le rôle des filtres de contenu ou de qualité, la déduplication et le mélange de sources multiples. Dolma a été utilisé pour entraîner OLMo, un modèle de langage open source de pointe et un cadre conçu pour construire et étudier la science de la modélisation du langage.
English
Language models have become a critical technology to tackling a wide range of
natural language processing tasks, yet many details about how the
best-performing language models were developed are not reported. In particular,
information about their pretraining corpora is seldom discussed: commercial
language models rarely provide any information about their data; even open
models rarely release datasets they are trained on, or an exact recipe to
reproduce them. As a result, it is challenging to conduct certain threads of
language modeling research, such as understanding how training data impacts
model capabilities and shapes their limitations. To facilitate open research on
language model pretraining, we release Dolma, a three trillion tokens English
corpus, built from a diverse mixture of web content, scientific papers, code,
public-domain books, social media, and encyclopedic materials. In addition, we
open source our data curation toolkit to enable further experimentation and
reproduction of our work. In this report, we document Dolma, including its
design principles, details about its construction, and a summary of its
contents. We interleave this report with analyses and experimental results from
training language models on intermediate states of Dolma to share what we have
learned about important data curation practices, including the role of content
or quality filters, deduplication, and multi-source mixing. Dolma has been used
to train OLMo, a state-of-the-art, open language model and framework designed
to build and study the science of language modeling.