ChatPaper.aiChatPaper

LLM360: Op weg naar volledig transparante open-source LLM's

LLM360: Towards Fully Transparent Open-Source LLMs

December 11, 2023
Auteurs: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
cs.AI

Samenvatting

De recente toename van open-source Large Language Models (LLMs), zoals LLaMA, Falcon en Mistral, biedt diverse opties voor AI-praktijkmensen en onderzoekers. De meeste LLMs hebben echter slechts gedeeltelijke artefacten vrijgegeven, zoals de uiteindelijke modelgewichten of inferentiecode, en technische rapporten beperken hun scope steeds vaker tot hoogontwerpbepalingen en oppervlakkige statistieken. Deze keuzes belemmeren de vooruitgang in het veld door de transparantie over het trainen van LLMs te verminderen en teams te dwingen veel details in het trainingsproces opnieuw te ontdekken. Wij presenteren LLM360, een initiatief om LLMs volledig open-source te maken, dat pleit voor het beschikbaar stellen van alle trainingscode en -data, modelcheckpoints en tussenresultaten aan de gemeenschap. Het doel van LLM360 is om open en collaboratief AI-onderzoek te ondersteunen door het end-to-end LLM-trainingsproces transparant en reproduceerbaar te maken voor iedereen. Als eerste stap van LLM360 brengen we twee 7B-parameter LLMs uit die vanaf nul zijn getraind, Amber en CrystalCoder, inclusief hun trainingscode, data, tussenliggende checkpoints en analyses (te vinden op https://www.llm360.ai). Wij zijn vastberaden om de grenzen van LLMs voortdurend te verleggen via deze open-source inspanning. Meer grootschalige en sterkere modellen zijn in ontwikkeling en zullen in de toekomst worden vrijgegeven.
English
The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
PDF574December 15, 2024