JetMoE: 0.1M 달러로 Llama2 성능 달성하기
JetMoE: Reaching Llama2 Performance with 0.1M Dollars
April 11, 2024
저자: Yikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin
cs.AI
초록
대형 언어 모델(LLMs)은 놀라운 성과를 달성했지만, 점점 증가하는 자원 요구량은 강력하고 접근 가능한 초인공지능 개발의 주요 장애물로 부상했습니다. 본 보고서는 10만 달러 미만의 비용으로 1.25조 토큰의 신중하게 혼합된 오픈소스 코퍼스와 30,000 H100 GPU 시간을 사용하여 학습된 새로운 LLM인 JetMoE-8B를 소개합니다. 낮은 비용에도 불구하고, JetMoE-8B는 인상적인 성능을 보여주며, JetMoE-8B는 Llama2-7B 모델을 능가하고, JetMoE-8B-Chat은 Llama2-13B-Chat 모델을 뛰어넘습니다. 이러한 결과는 LLM 학습이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 시사합니다. JetMoE-8B는 효율적인 희소 게이트 혼합 전문가(SMoE) 아키텍처를 기반으로 하며, 어텐션과 피드포워드 전문가로 구성됩니다. 두 레이어 모두 희소 활성화되어 있어, JetMoE-8B는 80억 개의 파라미터를 가지고 있으면서도 각 입력 토큰에 대해 20억 개만 활성화하여 Llama2-7B 대비 추론 계산량을 약 70% 줄입니다. 또한, JetMoE-8B는 매우 개방적이고 학계 친화적이며, 공개 데이터셋과 학습 코드만을 사용합니다. 모든 학습 파라미터와 데이터 혼합은 이 보고서에 상세히 기술되어 있어, 향후 오픈 파운데이션 모델 개발을 위한 노력을 촉진합니다. 이러한 투명성은 접근 가능하고 효율적인 LLM 분야에서의 협력과 추가 발전을 장려하기 위한 것입니다. 모델 가중치는 https://github.com/myshell-ai/JetMoE에서 공개되어 있습니다.
English
Large Language Models (LLMs) have achieved remarkable results, but their
increasing resource demand has become a major obstacle to the development of
powerful and accessible super-human intelligence. This report introduces
JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens
from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its
low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B
outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the
Llama2-13B-Chat model. These results suggest that LLM training can be much more
cost-effective than generally thought. JetMoE-8B is based on an efficient
Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention
and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B
to have 8B parameters while only activating 2B for each input token, reducing
inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B
is highly open and academia-friendly, using only public datasets and training
code. All training parameters and data mixtures have been detailed in this
report to facilitate future efforts in the development of open foundation
models. This transparency aims to encourage collaboration and further
advancements in the field of accessible and efficient LLMs. The model weights
are publicly available at https://github.com/myshell-ai/JetMoE.Summary
AI-Generated Summary