ChatPaper.aiChatPaper

LLM360: Auf dem Weg zu vollständig transparenten Open-Source-LLMs

LLM360: Towards Fully Transparent Open-Source LLMs

December 11, 2023
Autoren: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
cs.AI

Zusammenfassung

Der jüngste Anstieg von Open-Source-Large-Language-Models (LLMs) wie LLaMA, Falcon und Mistral bietet vielfältige Optionen für KI-Praktiker und Forscher. Die meisten LLMs haben jedoch nur Teilartefakte veröffentlicht, wie die finalen Modellgewichte oder Inferenz-Code, und technische Berichte beschränken ihren Umfang zunehmend auf hochrangige Designentscheidungen und oberflächliche Statistiken. Diese Entscheidungen behindern den Fortschritt auf diesem Gebiet, indem sie die Transparenz in Bezug auf das Training von LLMs verringern und Teams dazu zwingen, viele Details des Trainingsprozesses neu zu entdecken. Wir stellen LLM360 vor, eine Initiative zur vollständigen Open-Source-Freigabe von LLMs, die sich dafür einsetzt, dass der gesamte Trainingscode und die Daten, Modell-Checkpoints und Zwischenergebnisse der Community zur Verfügung gestellt werden. Das Ziel von LLM360 ist es, offene und kollaborative KI-Forschung zu unterstützen, indem der end-to-end LLM-Trainingsprozess transparent und für jeden reproduzierbar gemacht wird. Als ersten Schritt von LLM360 veröffentlichen wir zwei 7B-Parameter-LLMs, Amber und CrystalCoder, die von Grund auf vortrainiert wurden, einschließlich ihres Trainingscodes, der Daten, Zwischen-Checkpoints und Analysen (unter https://www.llm360.ai). Wir sind bestrebt, die Grenzen von LLMs durch diesen Open-Source-Ansatz kontinuierlich zu erweitern. Weitere groß angelegte und leistungsstärkere Modelle sind in Arbeit und werden in Zukunft veröffentlicht.
English
The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
PDF574December 15, 2024