Dolma: Ein offener Korpus mit drei Billionen Tokens für die Forschung zur Vortrainierung von Sprachmodellen
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
January 31, 2024
Autoren: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
cs.AI
Zusammenfassung
Sprachmodelle sind zu einer entscheidenden Technologie geworden, um eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung zu bewältigen. Dennoch werden viele Details darüber, wie die leistungsstärksten Sprachmodelle entwickelt wurden, nicht offengelegt. Insbesondere werden Informationen über ihre Vortrainingskorpora selten diskutiert: Kommerzielle Sprachmodelle geben kaum Auskunft über ihre Daten; selbst Open-Source-Modelle veröffentlichen nur selten die Datensätze, auf denen sie trainiert wurden, oder eine genaue Anleitung, um diese zu reproduzieren. Infolgedessen ist es schwierig, bestimmte Forschungsrichtungen im Bereich der Sprachmodellierung zu verfolgen, wie beispielsweise zu verstehen, wie Trainingsdaten die Fähigkeiten von Modellen beeinflussen und ihre Grenzen prägen. Um offene Forschung zum Vortraining von Sprachmodellen zu fördern, veröffentlichen wir Dolma, ein englisches Korpus mit drei Billionen Tokens, das aus einer vielfältigen Mischung von Webinhalten, wissenschaftlichen Artikeln, Code, gemeinfreien Büchern, Social-Media-Inhalten und enzyklopädischen Materialien besteht. Zudem stellen wir unser Datenkuratierungstoolkit als Open Source zur Verfügung, um weitere Experimente und die Reproduktion unserer Arbeit zu ermöglichen. In diesem Bericht dokumentieren wir Dolma, einschließlich seiner Designprinzipien, Details zu seiner Erstellung und einer Zusammenfassung seiner Inhalte. Wir ergänzen diesen Bericht mit Analysen und experimentellen Ergebnissen aus dem Training von Sprachmodellen auf Zwischenständen von Dolma, um unsere Erkenntnisse über wichtige Praktiken der Datenkuratierung zu teilen, darunter die Rolle von Inhalts- oder Qualitätsfiltern, Deduplizierung und der Mischung aus mehreren Quellen. Dolma wurde verwendet, um OLMo zu trainieren, ein modernes, offenes Sprachmodell und Framework, das entwickelt wurde, um die Wissenschaft der Sprachmodellierung zu erforschen und zu studieren.
English
Language models have become a critical technology to tackling a wide range of
natural language processing tasks, yet many details about how the
best-performing language models were developed are not reported. In particular,
information about their pretraining corpora is seldom discussed: commercial
language models rarely provide any information about their data; even open
models rarely release datasets they are trained on, or an exact recipe to
reproduce them. As a result, it is challenging to conduct certain threads of
language modeling research, such as understanding how training data impacts
model capabilities and shapes their limitations. To facilitate open research on
language model pretraining, we release Dolma, a three trillion tokens English
corpus, built from a diverse mixture of web content, scientific papers, code,
public-domain books, social media, and encyclopedic materials. In addition, we
open source our data curation toolkit to enable further experimentation and
reproduction of our work. In this report, we document Dolma, including its
design principles, details about its construction, and a summary of its
contents. We interleave this report with analyses and experimental results from
training language models on intermediate states of Dolma to share what we have
learned about important data curation practices, including the role of content
or quality filters, deduplication, and multi-source mixing. Dolma has been used
to train OLMo, a state-of-the-art, open language model and framework designed
to build and study the science of language modeling.