Dolma: un corpus aperto di tre trilioni di token per la ricerca sul pre-addestramento dei modelli linguistici

Abstract

I modelli linguistici sono diventati una tecnologia cruciale per affrontare un'ampia gamma di attività di elaborazione del linguaggio naturale, tuttavia molti dettagli su come sono stati sviluppati i modelli linguistici più performanti non vengono riportati. In particolare, le informazioni sui corpora di pre-addestramento sono raramente discusse: i modelli linguistici commerciali forniscono raramente informazioni sui loro dati; persino i modelli open source raramente rilasciano i dataset su cui sono addestrati o una ricetta esatta per riprodurli. Di conseguenza, è difficile condurre alcune linee di ricerca sui modelli linguistici, come comprendere come i dati di addestramento influenzino le capacità del modello e ne delineino i limiti. Per facilitare la ricerca aperta sul pre-addestramento dei modelli linguistici, rilasciamo Dolma, un corpus inglese di tre trilioni di token, costruito da una miscela diversificata di contenuti web, articoli scientifici, codice, libri di pubblico dominio, social media e materiali enciclopedici. Inoltre, rendiamo open source il nostro toolkit di curatela dei dati per consentire ulteriori esperimenti e la riproduzione del nostro lavoro. In questo rapporto, documentiamo Dolma, inclusi i suoi principi di progettazione, dettagli sulla sua costruzione e un riassunto dei suoi contenuti. Intervalliamo questo rapporto con analisi e risultati sperimentali ottenuti addestrando modelli linguistici su stati intermedi di Dolma per condividere ciò che abbiamo appreso sulle pratiche importanti di curatela dei dati, incluso il ruolo dei filtri di contenuto o qualità, la deduplicazione e il mixing di fonti multiple. Dolma è stato utilizzato per addestrare OLMo, un modello linguistico open source all'avanguardia e un framework progettato per costruire e studiare la scienza dei modelli linguistici.

English

Language models have become a critical technology to tackling a wide range of natural language processing tasks, yet many details about how the best-performing language models were developed are not reported. In particular, information about their pretraining corpora is seldom discussed: commercial language models rarely provide any information about their data; even open models rarely release datasets they are trained on, or an exact recipe to reproduce them. As a result, it is challenging to conduct certain threads of language modeling research, such as understanding how training data impacts model capabilities and shapes their limitations. To facilitate open research on language model pretraining, we release Dolma, a three trillion tokens English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. In addition, we open source our data curation toolkit to enable further experimentation and reproduction of our work. In this report, we document Dolma, including its design principles, details about its construction, and a summary of its contents. We interleave this report with analyses and experimental results from training language models on intermediate states of Dolma to share what we have learned about important data curation practices, including the role of content or quality filters, deduplication, and multi-source mixing. Dolma has been used to train OLMo, a state-of-the-art, open language model and framework designed to build and study the science of language modeling.

Dolma: un corpus aperto di tre trilioni di token per la ricerca sul pre-addestramento dei modelli linguistici

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Abstract

Support