ChatPaper.aiChatPaper

JetMoE: Llama2-prestaties bereiken met 0,1 miljoen dollar

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

April 11, 2024
Auteurs: Yikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke resultaten behaald, maar hun toenemende vraag naar middelen is een groot obstakel geworden voor de ontwikkeling van krachtige en toegankelijke supermenselijke intelligentie. Dit rapport introduceert JetMoE-8B, een nieuw LLM dat is getraind met minder dan $0,1 miljoen, waarbij 1,25T tokens uit zorgvuldig samengestelde open-source corpora en 30.000 H100 GPU-uren zijn gebruikt. Ondanks de lage kosten toont JetMoE-8B indrukwekkende prestaties, waarbij JetMoE-8B het Llama2-7B-model overtreft en JetMoE-8B-Chat het Llama2-13B-Chat-model overstijgt. Deze resultaten suggereren dat de training van LLMs veel kosteneffectiever kan zijn dan algemeen wordt aangenomen. JetMoE-8B is gebaseerd op een efficiënte Sparsely-gated Mixture-of-Experts (SMoE)-architectuur, bestaande uit aandacht- en feedforward-experts. Beide lagen worden spaarzaam geactiveerd, waardoor JetMoE-8B 8B parameters kan hebben terwijl slechts 2B voor elk invoertoken worden geactiveerd, wat de inferentieberekening met ongeveer 70% vermindert in vergelijking met Llama2-7B. Bovendien is JetMoE-8B zeer open en academisch vriendelijk, waarbij alleen openbare datasets en trainingscode worden gebruikt. Alle trainingsparameters en datamengsels zijn in dit rapport gedetailleerd beschreven om toekomstige inspanningen bij de ontwikkeling van open foundation-modellen te vergemakkelijken. Deze transparantie heeft tot doel samenwerking en verdere vooruitgang op het gebied van toegankelijke en efficiënte LLMs aan te moedigen. De modelgewichten zijn openbaar beschikbaar op https://github.com/myshell-ai/JetMoE.
English
Large Language Models (LLMs) have achieved remarkable results, but their increasing resource demand has become a major obstacle to the development of powerful and accessible super-human intelligence. This report introduces JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the Llama2-13B-Chat model. These results suggest that LLM training can be much more cost-effective than generally thought. JetMoE-8B is based on an efficient Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B to have 8B parameters while only activating 2B for each input token, reducing inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B is highly open and academia-friendly, using only public datasets and training code. All training parameters and data mixtures have been detailed in this report to facilitate future efforts in the development of open foundation models. This transparency aims to encourage collaboration and further advancements in the field of accessible and efficient LLMs. The model weights are publicly available at https://github.com/myshell-ai/JetMoE.
PDF384December 15, 2024