OLMo: Accelerare la Scienza dei Modelli Linguistici

Abstract

I modelli linguistici (Language Models, LMs) sono diventati onnipresenti sia nella ricerca NLP che nelle offerte di prodotti commerciali. Con l'aumento della loro importanza commerciale, i modelli più potenti sono diventati chiusi, protetti da interfacce proprietarie, con dettagli cruciali sui loro dati di addestramento, architetture e sviluppo non divulgati. Considerando l'importanza di questi dettagli per lo studio scientifico di questi modelli, inclusi i loro pregiudizi e potenziali rischi, riteniamo essenziale che la comunità di ricerca abbia accesso a modelli linguistici potenti e veramente aperti. A tal fine, questo rapporto tecnico descrive la prima release di OLMo, un modello linguistico all'avanguardia e veramente aperto, insieme al suo framework per costruire e studiare la scienza della modellazione linguistica. A differenza della maggior parte degli sforzi precedenti che hanno rilasciato solo i pesi del modello e il codice di inferenza, rilasciamo OLMo e l'intero framework, inclusi i dati di addestramento e il codice di addestramento e valutazione. Speriamo che questo rilascio potenzi e rafforzi la comunità di ricerca aperta e ispiri una nuova ondata di innovazione.

English

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

OLMo: Accelerare la Scienza dei Modelli Linguistici

OLMo: Accelerating the Science of Language Models

Abstract

Support