JetMoE : Atteindre les performances de Llama2 avec 0,1 million de dollars
JetMoE: Reaching Llama2 Performance with 0.1M Dollars
April 11, 2024
Auteurs: Yikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont obtenu des résultats remarquables, mais leur demande croissante en ressources est devenue un obstacle majeur au développement d'une intelligence surhumaine puissante et accessible. Ce rapport présente JetMoE-8B, un nouveau LLM entraîné pour moins de 0,1 million de dollars, utilisant 1,25 trillion de tokens provenant de corpus open-source soigneusement mélangés et 30 000 heures de GPU H100. Malgré son faible coût, JetMoE-8B démontre des performances impressionnantes, surpassant le modèle Llama2-7B, et JetMoE-8B-Chat surpassant le modèle Llama2-13B-Chat. Ces résultats suggèrent que l'entraînement des LLMs peut être bien plus rentable qu'on ne le pense généralement. JetMoE-8B est basé sur une architecture efficace de Mixture-of-Experts à portes éparses (SMoE), composée d'experts d'attention et de feedforward. Les deux couches sont activées de manière éparse, permettant à JetMoE-8B d'avoir 8 milliards de paramètres tout en n'en activant que 2 milliards pour chaque token d'entrée, réduisant ainsi le calcul d'inférence d'environ 70 % par rapport à Llama2-7B. De plus, JetMoE-8B est très ouvert et adapté au milieu académique, utilisant uniquement des datasets publics et du code d'entraînement. Tous les paramètres d'entraînement et les mélanges de données ont été détaillés dans ce rapport pour faciliter les efforts futurs dans le développement de modèles de base ouverts. Cette transparence vise à encourager la collaboration et les avancées dans le domaine des LLMs accessibles et efficaces. Les poids du modèle sont disponibles publiquement à l'adresse https://github.com/myshell-ai/JetMoE.
English
Large Language Models (LLMs) have achieved remarkable results, but their
increasing resource demand has become a major obstacle to the development of
powerful and accessible super-human intelligence. This report introduces
JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens
from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its
low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B
outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the
Llama2-13B-Chat model. These results suggest that LLM training can be much more
cost-effective than generally thought. JetMoE-8B is based on an efficient
Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention
and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B
to have 8B parameters while only activating 2B for each input token, reducing
inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B
is highly open and academia-friendly, using only public datasets and training
code. All training parameters and data mixtures have been detailed in this
report to facilitate future efforts in the development of open foundation
models. This transparency aims to encourage collaboration and further
advancements in the field of accessible and efficient LLMs. The model weights
are publicly available at https://github.com/myshell-ai/JetMoE.Summary
AI-Generated Summary