OLMo : Accélérer la science des modèles de langage
OLMo: Accelerating the Science of Language Models
February 1, 2024
papers.authors: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
papers.abstract
Les modèles de langage (LMs) sont devenus omniprésents, tant dans la recherche en traitement du langage naturel (NLP) que dans les offres de produits commerciaux. Alors que leur importance commerciale a considérablement augmenté, les modèles les plus puissants sont devenus fermés, protégés derrière des interfaces propriétaires, avec des détails cruciaux sur leurs données d'entraînement, leurs architectures et leur développement non divulgués. Étant donné l'importance de ces détails pour l'étude scientifique de ces modèles, y compris leurs biais et risques potentiels, nous pensons qu'il est essentiel que la communauté de recherche ait accès à des LMs puissants et véritablement ouverts. Dans cette optique, ce rapport technique détaille la première version d'OLMo, un modèle de langage de pointe et véritablement ouvert, ainsi que son cadre pour construire et étudier la science de la modélisation du langage. Contrairement à la plupart des efforts antérieurs qui n'ont publié que les poids des modèles et le code d'inférence, nous publions OLMo ainsi que l'ensemble du cadre, y compris les données d'entraînement et les codes d'entraînement et d'évaluation. Nous espérons que cette publication renforcera et dynamisera la communauté de recherche ouverte et inspirera une nouvelle vague d'innovation.
English
Language models (LMs) have become ubiquitous in both NLP research and in
commercial product offerings. As their commercial importance has surged, the
most powerful models have become closed off, gated behind proprietary
interfaces, with important details of their training data, architectures, and
development undisclosed. Given the importance of these details in
scientifically studying these models, including their biases and potential
risks, we believe it is essential for the research community to have access to
powerful, truly open LMs. To this end, this technical report details the first
release of OLMo, a state-of-the-art, truly Open Language Model and its
framework to build and study the science of language modeling. Unlike most
prior efforts that have only released model weights and inference code, we
release OLMo and the whole framework, including training data and training and
evaluation code. We hope this release will empower and strengthen the open
research community and inspire a new wave of innovation.