GEB-1.3B: Modello Linguistico Leggero e Aperto di Grandi Dimensioni
GEB-1.3B: Open Lightweight Large Language Model
June 14, 2024
Autori: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sviluppati di recente, come ChatGPT, Claude e Llama, hanno dimostrato capacità impressionanti, superando persino le prestazioni umane in diversi compiti. Nonostante il loro successo, le esigenze intensive di risorse di questi modelli, che richiedono una potenza computazionale significativa sia per l'addestramento che per l'inferenza, ne limitano l'implementazione a server ad alte prestazioni. Inoltre, i requisiti di calcolo estesi dei modelli spesso portano a un aumento della latenza nei tempi di risposta. Con la crescente necessità che gli LLM operino in modo efficiente sulle CPU, è emersa la ricerca su modelli leggeri ottimizzati per l'inferenza su CPU. In questo lavoro, presentiamo GEB-1.3B, un LLM leggero addestrato su 550 miliardi di token in lingue cinese e inglese. Utilizziamo tecniche di addestramento innovative, tra cui ROPE, Group-Query-Attention e FlashAttention-2, per accelerare l'addestramento mantenendo le prestazioni del modello. Inoltre, ottimizziamo il modello utilizzando 10 milioni di campioni di dati di istruzione per migliorare l'allineamento. GEB-1.3B mostra prestazioni eccezionali su benchmark generali come MMLU, C-Eval e CMMLU, superando modelli comparabili come MindLLM-1.3B e TinyLLaMA-1.1B. In particolare, la versione FP32 di GEB-1.3B raggiunge tempi di inferenza notevoli sulle CPU, con sforzi in corso per migliorare ulteriormente la velocità attraverso tecniche avanzate di quantizzazione. Il rilascio di GEB-1.3B come modello open-source rappresenta un contributo significativo allo sviluppo di LLM leggeri, promettendo di favorire ulteriori ricerche e innovazioni nel campo.
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and
Llama have demonstrated impressive abilities, and even surpass human-level
performance in several tasks. Despite their success, the resource-intensive
demands of these models, requiring significant computational power for both
training and inference, limit their deployment to high-performance servers.
Additionally, the extensive calculation requirements of the models often lead
to increased latency in response times. With the increasing need for LLMs to
operate efficiently on CPUs, research about lightweight models that are
optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a
lightweight LLM trained on 550 billion tokens in both Chinese and English
languages. We employ novel training techniques, including ROPE,
Group-Query-Attention, and FlashAttention-2, to accelerate training while
maintaining model performance. Additionally, we fine-tune the model using 10
million samples of instruction data to enhance alignment. GEB-1.3B exhibits
outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU,
outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B.
Notably, the FP32 version of GEB-1.3B achieves commendable inference times on
CPUs, with ongoing efforts to further enhance speed through advanced
quantization techniques. The release of GEB-1.3B as an open-source model marks
a significant contribution to the development of lightweight LLMs, promising to
foster further research and innovation in the field.