ChatPaper.aiChatPaper

Dolma: un Corpus Abierto de Tres Billones de Tokens para la Investigación en Pretrenamiento de Modelos de Lenguaje

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

January 31, 2024
Autores: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
cs.AI

Resumen

Los modelos de lenguaje se han convertido en una tecnología crucial para abordar una amplia gama de tareas de procesamiento de lenguaje natural, sin embargo, muchos detalles sobre cómo se desarrollaron los modelos de lenguaje de mejor rendimiento no se reportan. En particular, la información sobre sus corpus de preentrenamiento rara vez se discute: los modelos de lenguaje comerciales casi nunca proporcionan información sobre sus datos; incluso los modelos abiertos rara vez publican los conjuntos de datos en los que se entrenan, o una receta exacta para reproducirlos. Como resultado, es difícil llevar a cabo ciertas líneas de investigación en modelado de lenguaje, como comprender cómo los datos de entrenamiento impactan las capacidades del modelo y moldean sus limitaciones. Para facilitar la investigación abierta sobre el preentrenamiento de modelos de lenguaje, lanzamos Dolma, un corpus en inglés de tres billones de tokens, construido a partir de una mezcla diversa de contenido web, artículos científicos, código, libros de dominio público, redes sociales y materiales enciclopédicos. Además, liberamos nuestro kit de herramientas de curación de datos para permitir más experimentación y reproducción de nuestro trabajo. En este informe, documentamos Dolma, incluyendo sus principios de diseño, detalles sobre su construcción y un resumen de su contenido. Intercalamos este informe con análisis y resultados experimentales del entrenamiento de modelos de lenguaje en estados intermedios de Dolma para compartir lo que hemos aprendido sobre prácticas importantes de curación de datos, incluyendo el papel de los filtros de contenido o calidad, la deduplicación y la mezcla de múltiples fuentes. Dolma se ha utilizado para entrenar OLMo, un modelo de lenguaje abierto y de vanguardia, junto con un marco diseñado para construir y estudiar la ciencia del modelado de lenguaje.
English
Language models have become a critical technology to tackling a wide range of natural language processing tasks, yet many details about how the best-performing language models were developed are not reported. In particular, information about their pretraining corpora is seldom discussed: commercial language models rarely provide any information about their data; even open models rarely release datasets they are trained on, or an exact recipe to reproduce them. As a result, it is challenging to conduct certain threads of language modeling research, such as understanding how training data impacts model capabilities and shapes their limitations. To facilitate open research on language model pretraining, we release Dolma, a three trillion tokens English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. In addition, we open source our data curation toolkit to enable further experimentation and reproduction of our work. In this report, we document Dolma, including its design principles, details about its construction, and a summary of its contents. We interleave this report with analyses and experimental results from training language models on intermediate states of Dolma to share what we have learned about important data curation practices, including the role of content or quality filters, deduplication, and multi-source mixing. Dolma has been used to train OLMo, a state-of-the-art, open language model and framework designed to build and study the science of language modeling.
PDF641December 15, 2024