ChatPaper.aiChatPaper

Dolma: открытый корпус из трех триллионов токенов для исследований предварительного обучения языковых моделей

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

January 31, 2024
Авторы: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
cs.AI

Аннотация

Языковые модели стали ключевой технологией для решения широкого спектра задач обработки естественного языка, однако многие детали о том, как разрабатывались наиболее эффективные модели, остаются нераскрытыми. В частности, информация о корпусах данных, используемых для их предварительного обучения, обсуждается крайне редко: коммерческие языковые модели редко предоставляют какие-либо сведения о своих данных; даже открытые модели редко публикуют наборы данных, на которых они обучаются, или точные инструкции для их воспроизведения. В результате становится сложно проводить определённые направления исследований в области языкового моделирования, такие как изучение того, как обучающие данные влияют на возможности моделей и формируют их ограничения. Чтобы способствовать открытым исследованиям в области предварительного обучения языковых моделей, мы представляем Dolma — корпус английского текста объёмом три триллиона токенов, созданный из разнообразных источников, включая веб-контент, научные статьи, код, книги, находящиеся в общественном достоянии, материалы из социальных сетей и энциклопедий. Кроме того, мы открываем исходный код нашего инструментария для обработки данных, чтобы обеспечить возможность дальнейших экспериментов и воспроизведения нашей работы. В этом отчёте мы подробно описываем Dolma, включая принципы её разработки, детали создания и обзор её содержания. Мы дополняем отчёт анализом и экспериментальными результатами, полученными при обучении языковых моделей на промежуточных версиях Dolma, чтобы поделиться нашими выводами о важных практиках обработки данных, таких как роль фильтров по содержанию или качеству, дедупликация и смешивание данных из различных источников. Dolma использовалась для обучения OLMo — современной открытой языковой модели и фреймворка, предназначенного для разработки и изучения науки языкового моделирования.
English
Language models have become a critical technology to tackling a wide range of natural language processing tasks, yet many details about how the best-performing language models were developed are not reported. In particular, information about their pretraining corpora is seldom discussed: commercial language models rarely provide any information about their data; even open models rarely release datasets they are trained on, or an exact recipe to reproduce them. As a result, it is challenging to conduct certain threads of language modeling research, such as understanding how training data impacts model capabilities and shapes their limitations. To facilitate open research on language model pretraining, we release Dolma, a three trillion tokens English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. In addition, we open source our data curation toolkit to enable further experimentation and reproduction of our work. In this report, we document Dolma, including its design principles, details about its construction, and a summary of its contents. We interleave this report with analyses and experimental results from training language models on intermediate states of Dolma to share what we have learned about important data curation practices, including the role of content or quality filters, deduplication, and multi-source mixing. Dolma has been used to train OLMo, a state-of-the-art, open language model and framework designed to build and study the science of language modeling.
PDF641December 15, 2024