GEB-1.3B : Modèle de Langage Léger et Ouvert à Grande Échelle
GEB-1.3B: Open Lightweight Large Language Model
June 14, 2024
Auteurs: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI
Résumé
Les grands modèles de langage (LLM) récemment développés, tels que ChatGPT, Claude et Llama, ont démontré des capacités impressionnantes, surpassant même les performances humaines dans plusieurs tâches. Malgré leur succès, les exigences intensives en ressources de ces modèles, nécessitant une puissance de calcul significative pour l'entraînement et l'inférence, limitent leur déploiement à des serveurs hautes performances. De plus, les calculs étendus requis par ces modèles entraînent souvent une latence accrue dans les temps de réponse. Face au besoin croissant de faire fonctionner les LLM de manière efficace sur des CPU, des recherches sur des modèles légers optimisés pour l'inférence sur CPU ont émergé. Dans ce travail, nous présentons GEB-1.3B, un LLM léger entraîné sur 550 milliards de tokens en chinois et en anglais. Nous utilisons des techniques d'entraînement novatrices, notamment ROPE, Group-Query-Attention et FlashAttention-2, pour accélérer l'entraînement tout en maintenant les performances du modèle. De plus, nous affinons le modèle à l'aide de 10 millions d'échantillons de données d'instruction pour améliorer l'alignement. GEB-1.3B montre des performances exceptionnelles sur des benchmarks généraux tels que MMLU, C-Eval et CMMLU, surpassant des modèles comparatifs comme MindLLM-1.3B et TinyLLaMA-1.1B. Notamment, la version FP32 de GEB-1.3B atteint des temps d'inférence remarquables sur les CPU, avec des efforts en cours pour améliorer encore la vitesse grâce à des techniques de quantification avancées. La publication de GEB-1.3B en tant que modèle open-source représente une contribution significative au développement de LLM légers, promettant de stimuler davantage de recherches et d'innovations dans ce domaine.
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and
Llama have demonstrated impressive abilities, and even surpass human-level
performance in several tasks. Despite their success, the resource-intensive
demands of these models, requiring significant computational power for both
training and inference, limit their deployment to high-performance servers.
Additionally, the extensive calculation requirements of the models often lead
to increased latency in response times. With the increasing need for LLMs to
operate efficiently on CPUs, research about lightweight models that are
optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a
lightweight LLM trained on 550 billion tokens in both Chinese and English
languages. We employ novel training techniques, including ROPE,
Group-Query-Attention, and FlashAttention-2, to accelerate training while
maintaining model performance. Additionally, we fine-tune the model using 10
million samples of instruction data to enhance alignment. GEB-1.3B exhibits
outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU,
outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B.
Notably, the FP32 version of GEB-1.3B achieves commendable inference times on
CPUs, with ongoing efforts to further enhance speed through advanced
quantization techniques. The release of GEB-1.3B as an open-source model marks
a significant contribution to the development of lightweight LLMs, promising to
foster further research and innovation in the field.Summary
AI-Generated Summary