OLMo: 언어 모델 과학의 가속화
OLMo: Accelerating the Science of Language Models
February 1, 2024
저자: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
초록
언어 모델(Language Models, LMs)은 NLP 연구와 상용 제품에서 모두 보편적으로 사용되고 있습니다. 이들의 상업적 중요성이 급증함에 따라, 가장 강력한 모델들은 독점 인터페이스 뒤에 가려져 있으며, 그들의 학습 데이터, 아키텍처, 개발 과정에 대한 중요한 세부 사항들이 공개되지 않고 있습니다. 이러한 세부 사항들이 모델의 편향성과 잠재적 위험을 포함한 과학적 연구에 중요하다는 점을 고려할 때, 연구 커뮤니티가 강력하고 진정으로 개방된 언어 모델에 접근할 수 있는 것은 필수적이라고 믿습니다. 이를 위해, 본 기술 보고서는 최첨단의 진정한 오픈 언어 모델인 OLMo와 언어 모델링 과학을 구축하고 연구하기 위한 프레임워크의 첫 번째 릴리스를 상세히 설명합니다. 대부분의 기존 노력이 모델 가중치와 추론 코드만을 공개한 것과 달리, 우리는 OLMo와 전체 프레임워크, 학습 데이터, 학습 및 평가 코드를 모두 공개합니다. 이번 릴리스가 오픈 연구 커뮤니티를 강화하고 새로운 혁신의 물결을 일으키기를 바랍니다.
English
Language models (LMs) have become ubiquitous in both NLP research and in
commercial product offerings. As their commercial importance has surged, the
most powerful models have become closed off, gated behind proprietary
interfaces, with important details of their training data, architectures, and
development undisclosed. Given the importance of these details in
scientifically studying these models, including their biases and potential
risks, we believe it is essential for the research community to have access to
powerful, truly open LMs. To this end, this technical report details the first
release of OLMo, a state-of-the-art, truly Open Language Model and its
framework to build and study the science of language modeling. Unlike most
prior efforts that have only released model weights and inference code, we
release OLMo and the whole framework, including training data and training and
evaluation code. We hope this release will empower and strengthen the open
research community and inspire a new wave of innovation.