LLM360: 完全に透明なオープンソースLLMを目指して
LLM360: Towards Fully Transparent Open-Source LLMs
December 11, 2023
著者: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
cs.AI
要旨
最近、LLaMA、Falcon、Mistralなどのオープンソースの大規模言語モデル(LLM)が急増し、AI実践者や研究者にとって多様な選択肢が提供されています。しかし、ほとんどのLLMは最終的なモデルの重みや推論コードなどの部分的な成果物しか公開されておらず、技術レポートも高レベルの設計選択や表面的な統計に範囲を限定する傾向が強まっています。これらの選択は、LLMのトレーニングに関する透明性を低下させ、チームがトレーニングプロセスの多くの詳細を再発見することを強いることで、この分野の進歩を妨げています。私たちは、LLM360というイニシアチブを紹介します。これは、LLMを完全にオープンソース化することを提唱し、すべてのトレーニングコードとデータ、モデルのチェックポイント、中間結果をコミュニティに提供することを目指しています。LLM360の目標は、エンドツーエンドのLLMトレーニングプロセスを透明かつ誰もが再現可能にすることで、オープンで協力的なAI研究を支援することです。LLM360の第一歩として、7BパラメータのLLMであるAmberとCrystalCoderをゼロから事前学習したものを公開します。これには、トレーニングコード、データ、中間チェックポイント、分析が含まれます(https://www.llm360.ai)。私たちは、このオープンソースの取り組みを通じて、LLMの境界を継続的に押し広げることにコミットしています。より大規模で強力なモデルが進行中であり、今後もリリースされる予定です。
English
The recent surge in open-source Large Language Models (LLMs), such as LLaMA,
Falcon, and Mistral, provides diverse options for AI practitioners and
researchers. However, most LLMs have only released partial artifacts, such as
the final model weights or inference code, and technical reports increasingly
limit their scope to high-level design choices and surface statistics. These
choices hinder progress in the field by degrading transparency into the
training of LLMs and forcing teams to rediscover many details in the training
process. We present LLM360, an initiative to fully open-source LLMs, which
advocates for all training code and data, model checkpoints, and intermediate
results to be made available to the community. The goal of LLM360 is to support
open and collaborative AI research by making the end-to-end LLM training
process transparent and reproducible by everyone. As a first step of LLM360, we
release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder,
including their training code, data, intermediate checkpoints, and analyses (at
https://www.llm360.ai). We are committed to continually pushing the boundaries
of LLMs through this open-source effort. More large-scale and stronger models
are underway and will be released in the future.