FLM-101B: 10만 달러 예산으로 훈련시킨 오픈 소스 대형 언어 모델
FLM-101B: An Open LLM and How to Train It with $100K Budget
September 7, 2023
저자: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang
cs.AI
초록
대규모 언어 모델(LLM)은 자연어 처리(NLP) 및 멀티모달 작업에서 놀라운 성과를 거두었습니다. 이러한 성공에도 불구하고, LLM의 개발은 두 가지 주요 과제에 직면해 있습니다: (i) 높은 계산 비용; (ii) 공정하고 객관적인 평가 수행의 어려움. LLM은 매우 비용이 많이 들어, 소수의 주요 기업만이 이를 훈련시킬 수 있어 연구 및 응용 기회가 제한됩니다. 이는 비용 효율적인 LLM 훈련의 중요성을 강조합니다. 본 논문에서는 성장 전략을 활용하여 LLM 훈련 비용을 크게 절감합니다. 우리는 101B 매개변수와 0.31TB 토큰을 가진 LLM을 100K 예산으로 훈련시킬 수 있음을 보여줍니다. 또한, 지식 중심 능력에 더 초점을 맞춘 기존 평가를 보완하여 LLM의 IQ 평가를 위한 체계적인 평가 패러다임을 채택합니다. 우리는 상징적 매핑, 규칙 이해, 패턴 마이닝, 간섭 방지 등 지능의 중요한 측면에 대한 평가를 포함한 벤치마크를 소개합니다. 이러한 평가는 암기의 잠재적 영향을 최소화합니다. 실험 결과, 100K 예산으로 훈련된 우리의 모델 FLM-101B는 GPT-3 및 GLM-130B와 같은 강력하고 잘 알려진 모델과 특히 훈련 데이터에서 보지 못한 컨텍스트를 포함한 IQ 벤치마크 평가에서 비슷한 성능을 달성함을 보여줍니다. FLM-101B의 체크포인트는 https://huggingface.co/CofeAI/FLM-101B에서 오픈소스로 공개될 예정입니다.
English
Large language models (LLMs) have achieved remarkable success in NLP and
multimodal tasks. Despite these successes, their development faces two main
challenges: (i) high computational cost; and (ii) difficulty in conducting fair
and objective evaluations. LLMs are prohibitively expensive, making it feasible
for only a few major players to undertake their training, thereby constraining
both research and application opportunities. This underscores the importance of
cost-effective LLM training. In this paper, we utilize a growth strategy to
significantly reduce LLM training cost. We demonstrate that an LLM with 101B
parameters and 0.31TB tokens can be trained on a 100K budget. We also adopt a
systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to
existing evaluations that focus more on knowledge-oriented abilities. We
introduce our benchmark including evaluations on important aspects of
intelligence including symbolic mapping, itrule understanding, pattern mining,
and anti-interference. Such evaluations minimize the potential impact of
memorization. Experimental results show that our model FLM-101B, trained with a
budget of 100K, achieves comparable performance to powerful and well-known
models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with
contexts unseen in training data. The checkpoint of FLM-101B will be
open-sourced at https://huggingface.co/CofeAI/FLM-101B.