ChatPaper.aiChatPaper

LLM360: 완전한 투명성을 지향하는 오픈소스 대형 언어 모델

LLM360: Towards Fully Transparent Open-Source LLMs

December 11, 2023
저자: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
cs.AI

초록

최근 LLaMA, Falcon, Mistral과 같은 오픈소스 대규모 언어 모델(LLM)의 급증은 AI 실무자와 연구자들에게 다양한 선택지를 제공하고 있습니다. 그러나 대부분의 LLM은 최종 모델 가중치나 추론 코드와 같은 부분적인 아티팩트만 공개하고 있으며, 기술 보고서는 점점 더 높은 수준의 설계 선택과 표면적인 통계로 범위를 제한하고 있습니다. 이러한 선택은 LLM 훈련 과정의 투명성을 저하시키고 팀들이 훈련 과정의 많은 세부 사항을 재발견하도록 강제함으로써 해당 분야의 진전을 방해하고 있습니다. 우리는 LLM360이라는 완전한 오픈소스 LLM을 위한 이니셔티브를 제안하며, 모든 훈련 코드와 데이터, 모델 체크포인트, 중간 결과를 커뮤니티에 공개할 것을 주장합니다. LLM360의 목표는 엔드투엔드 LLM 훈련 과정을 투명하고 누구나 재현 가능하게 만들어 개방적이고 협력적인 AI 연구를 지원하는 것입니다. LLM360의 첫 번째 단계로, 우리는 처음부터 사전 훈련된 두 개의 7B 파라미터 LLM인 Amber와 CrystalCoder를 공개하며, 이들의 훈련 코드, 데이터, 중간 체크포인트 및 분석을 포함합니다(https://www.llm360.ai에서 확인 가능). 우리는 이 오픈소스 노력을 통해 LLM의 한계를 지속적으로 넓혀 나가기 위해 노력하고 있습니다. 더 대규모이고 강력한 모델들이 진행 중이며, 앞으로 공개될 예정입니다.
English
The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
PDF574December 15, 2024