ChatPaper.aiChatPaper

LLM360: Rumos aos LLMs de Código Aberto Totalmente Transparentes

LLM360: Towards Fully Transparent Open-Source LLMs

December 11, 2023
Autores: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
cs.AI

Resumo

O recente aumento de modelos de linguagem de grande escala (LLMs) de código aberto, como LLaMA, Falcon e Mistral, oferece diversas opções para profissionais e pesquisadores de IA. No entanto, a maioria dos LLMs lançou apenas artefatos parciais, como os pesos finais do modelo ou o código de inferência, e os relatórios técnicos têm limitado cada vez mais seu escopo a escolhas de design de alto nível e estatísticas superficiais. Essas escolhas prejudicam o progresso no campo ao reduzir a transparência no treinamento dos LLMs e forçar equipes a redescobrir muitos detalhes do processo de treinamento. Apresentamos o LLM360, uma iniciativa para disponibilizar totalmente LLMs de código aberto, que defende que todo o código e dados de treinamento, checkpoints do modelo e resultados intermediários sejam disponibilizados para a comunidade. O objetivo do LLM360 é apoiar a pesquisa em IA aberta e colaborativa, tornando o processo de treinamento de LLMs de ponta a ponta transparente e reproduzível por todos. Como primeiro passo do LLM360, lançamos dois LLMs de 7 bilhões de parâmetros pré-treinados do zero, Amber e CrystalCoder, incluindo seu código de treinamento, dados, checkpoints intermediários e análises (disponíveis em https://www.llm360.ai). Estamos comprometidos em continuar a expandir os limites dos LLMs por meio desse esforço de código aberto. Modelos em maior escala e mais robustos estão em desenvolvimento e serão lançados no futuro.
English
The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
PDF574December 15, 2024