돌마: 언어 모델 사전 학습 연구를 위한 3조 토큰 규모의 오픈 코퍼스
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
January 31, 2024
저자: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
cs.AI
초록
언어 모델은 다양한 자연어 처리 과제를 해결하는 데 있어 핵심 기술로 자리 잡았으나, 최고 성능을 내는 언어 모델들이 어떻게 개발되었는지에 대한 많은 세부 사항이 공개되지 않고 있다. 특히, 사전 학습에 사용된 코퍼스에 대한 정보는 거의 논의되지 않는다: 상업용 언어 모델은 데이터에 대한 정보를 거의 제공하지 않으며, 심지어 오픈 모델조차도 학습에 사용된 데이터셋이나 이를 재현하기 위한 정확한 방법을 공개하는 경우가 드물다. 이로 인해 학습 데이터가 모델의 능력에 미치는 영향과 한계를 이해하는 등 언어 모델링 연구의 특정 주제를 탐구하는 데 어려움이 있다. 언어 모델 사전 학습에 대한 공개 연구를 촉진하기 위해, 우리는 웹 콘텐츠, 과학 논문, 코드, 공개 도메인 도서, 소셜 미디어, 백과사전 자료 등 다양한 소스로 구성된 3조 토큰 규모의 영어 코퍼스인 Dolma를 공개한다. 또한, 추가 실험과 연구 재현을 가능하게 하기 위해 데이터 정제 도구를 오픈소스로 제공한다. 본 보고서에서는 Dolma의 설계 원칙, 구축 과정의 세부 사항, 그리고 내용 요약을 문서화한다. 또한, Dolma의 중간 상태에서 언어 모델을 학습시킨 결과와 분석을 통해 콘텐츠 또는 품질 필터링, 중복 제거, 다중 소스 혼합 등 중요한 데이터 정제 관행에 대해 배운 내용을 공유한다. Dolma는 언어 모델링 과학을 구축하고 연구하기 위해 설계된 최첨단 오픈 언어 모델 및 프레임워크인 OLMo를 학습시키는 데 사용되었다.
English
Language models have become a critical technology to tackling a wide range of
natural language processing tasks, yet many details about how the
best-performing language models were developed are not reported. In particular,
information about their pretraining corpora is seldom discussed: commercial
language models rarely provide any information about their data; even open
models rarely release datasets they are trained on, or an exact recipe to
reproduce them. As a result, it is challenging to conduct certain threads of
language modeling research, such as understanding how training data impacts
model capabilities and shapes their limitations. To facilitate open research on
language model pretraining, we release Dolma, a three trillion tokens English
corpus, built from a diverse mixture of web content, scientific papers, code,
public-domain books, social media, and encyclopedic materials. In addition, we
open source our data curation toolkit to enable further experimentation and
reproduction of our work. In this report, we document Dolma, including its
design principles, details about its construction, and a summary of its
contents. We interleave this report with analyses and experimental results from
training language models on intermediate states of Dolma to share what we have
learned about important data curation practices, including the role of content
or quality filters, deduplication, and multi-source mixing. Dolma has been used
to train OLMo, a state-of-the-art, open language model and framework designed
to build and study the science of language modeling.