ChatPaper.aiChatPaper

OLMo : Accélérer la science des modèles de langage

OLMo: Accelerating the Science of Language Models

February 1, 2024
papers.authors: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

papers.abstract

Les modèles de langage (LMs) sont devenus omniprésents, tant dans la recherche en traitement du langage naturel (NLP) que dans les offres de produits commerciaux. Alors que leur importance commerciale a considérablement augmenté, les modèles les plus puissants sont devenus fermés, protégés derrière des interfaces propriétaires, avec des détails cruciaux sur leurs données d'entraînement, leurs architectures et leur développement non divulgués. Étant donné l'importance de ces détails pour l'étude scientifique de ces modèles, y compris leurs biais et risques potentiels, nous pensons qu'il est essentiel que la communauté de recherche ait accès à des LMs puissants et véritablement ouverts. Dans cette optique, ce rapport technique détaille la première version d'OLMo, un modèle de langage de pointe et véritablement ouvert, ainsi que son cadre pour construire et étudier la science de la modélisation du langage. Contrairement à la plupart des efforts antérieurs qui n'ont publié que les poids des modèles et le code d'inférence, nous publions OLMo ainsi que l'ensemble du cadre, y compris les données d'entraînement et les codes d'entraînement et d'évaluation. Nous espérons que cette publication renforcera et dynamisera la communauté de recherche ouverte et inspirera une nouvelle vague d'innovation.
English
Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.
PDF844December 15, 2024