LLM360 : Vers des modèles de langage open-source entièrement transparents
LLM360: Towards Fully Transparent Open-Source LLMs
December 11, 2023
Auteurs: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
cs.AI
Résumé
La récente montée en puissance des modèles de langage de grande taille (LLM) open-source, tels que LLaMA, Falcon et Mistral, offre une diversité d'options pour les praticiens et chercheurs en IA. Cependant, la plupart des LLM n'ont publié que des artefacts partiels, tels que les poids finaux du modèle ou le code d'inférence, et les rapports techniques limitent de plus en plus leur portée aux choix de conception de haut niveau et aux statistiques superficielles. Ces choix entravent les progrès dans le domaine en réduisant la transparence sur l'entraînement des LLM et en forçant les équipes à redécouvrir de nombreux détails du processus d'entraînement. Nous présentons LLM360, une initiative visant à ouvrir entièrement les LLM, qui plaide pour que tout le code et les données d'entraînement, les points de contrôle du modèle et les résultats intermédiaires soient mis à la disposition de la communauté. L'objectif de LLM360 est de soutenir la recherche en IA ouverte et collaborative en rendant le processus d'entraînement des LLM, de bout en bout, transparent et reproductible par tous. Comme première étape de LLM360, nous publions deux LLM de 7 milliards de paramètres pré-entraînés à partir de zéro, Amber et CrystalCoder, incluant leur code d'entraînement, les données, les points de contrôle intermédiaires et les analyses (disponibles sur https://www.llm360.ai). Nous nous engageons à repousser continuellement les limites des LLM grâce à cet effort open-source. D'autres modèles plus larges et plus puissants sont en cours de développement et seront publiés à l'avenir.
English
The recent surge in open-source Large Language Models (LLMs), such as LLaMA,
Falcon, and Mistral, provides diverse options for AI practitioners and
researchers. However, most LLMs have only released partial artifacts, such as
the final model weights or inference code, and technical reports increasingly
limit their scope to high-level design choices and surface statistics. These
choices hinder progress in the field by degrading transparency into the
training of LLMs and forcing teams to rediscover many details in the training
process. We present LLM360, an initiative to fully open-source LLMs, which
advocates for all training code and data, model checkpoints, and intermediate
results to be made available to the community. The goal of LLM360 is to support
open and collaborative AI research by making the end-to-end LLM training
process transparent and reproducible by everyone. As a first step of LLM360, we
release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder,
including their training code, data, intermediate checkpoints, and analyses (at
https://www.llm360.ai). We are committed to continually pushing the boundaries
of LLMs through this open-source effort. More large-scale and stronger models
are underway and will be released in the future.