LLM360: Verso Modelli Linguistici Open-Source Completamente Trasparenti
LLM360: Towards Fully Transparent Open-Source LLMs
December 11, 2023
Autori: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
cs.AI
Abstract
Il recente aumento dei modelli linguistici di grandi dimensioni (LLM) open-source, come LLaMA, Falcon e Mistral, offre opzioni diversificate per i professionisti e i ricercatori dell'IA. Tuttavia, la maggior parte degli LLM ha rilasciato solo artefatti parziali, come i pesi finali del modello o il codice di inferenza, e i rapporti tecnici limitano sempre più il loro ambito a scelte progettuali di alto livello e statistiche superficiali. Queste scelte ostacolano il progresso nel campo riducendo la trasparenza nel processo di addestramento degli LLM e costringendo i team a riscoprire molti dettagli nel processo di formazione. Presentiamo LLM360, un'iniziativa per rendere completamente open-source gli LLM, che sostiene la condivisione con la comunità di tutto il codice e i dati di addestramento, i checkpoint del modello e i risultati intermedi. L'obiettivo di LLM360 è supportare la ricerca aperta e collaborativa nell'IA rendendo trasparente e riproducibile da chiunque il processo di addestramento end-to-end degli LLM. Come primo passo di LLM360, rilasciamo due LLM da 7B parametri pre-addestrati da zero, Amber e CrystalCoder, inclusi il loro codice di addestramento, i dati, i checkpoint intermedi e le analisi (disponibili su https://www.llm360.ai). Ci impegniamo a spingere continuamente i confini degli LLM attraverso questo sforzo open-source. Modelli più grandi e potenti sono in fase di sviluppo e verranno rilasciati in futuro.
English
The recent surge in open-source Large Language Models (LLMs), such as LLaMA,
Falcon, and Mistral, provides diverse options for AI practitioners and
researchers. However, most LLMs have only released partial artifacts, such as
the final model weights or inference code, and technical reports increasingly
limit their scope to high-level design choices and surface statistics. These
choices hinder progress in the field by degrading transparency into the
training of LLMs and forcing teams to rediscover many details in the training
process. We present LLM360, an initiative to fully open-source LLMs, which
advocates for all training code and data, model checkpoints, and intermediate
results to be made available to the community. The goal of LLM360 is to support
open and collaborative AI research by making the end-to-end LLM training
process transparent and reproducible by everyone. As a first step of LLM360, we
release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder,
including their training code, data, intermediate checkpoints, and analyses (at
https://www.llm360.ai). We are committed to continually pushing the boundaries
of LLMs through this open-source effort. More large-scale and stronger models
are underway and will be released in the future.