GEB-1.3B: Offenes Leichtgewichts-Großsprachmodell
GEB-1.3B: Open Lightweight Large Language Model
June 14, 2024
Autoren: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI
Zusammenfassung
Kürzlich entwickelte große Sprachmodelle (LLMs) wie ChatGPT, Claude und Llama haben beeindruckende Fähigkeiten gezeigt und übertreffen sogar die Leistung auf menschlichem Niveau in mehreren Aufgaben. Trotz ihres Erfolgs begrenzen die ressourcenintensiven Anforderungen dieser Modelle, die sowohl beim Training als auch bei der Inferenz erhebliche Rechenleistung erfordern, ihre Bereitstellung auf Hochleistungsserver. Darüber hinaus führen die umfangreichen Berechnungsanforderungen der Modelle oft zu erhöhten Latenzzeiten bei den Antwortzeiten. Mit dem zunehmenden Bedarf an effizientem Betrieb von LLMs auf CPUs ist die Forschung zu leichten Modellen, die für die CPU-Inferenz optimiert sind, entstanden. In dieser Arbeit stellen wir GEB-1.3B vor, ein leichtgewichtiges LLM, das auf 550 Milliarden Tokens in den Sprachen Chinesisch und Englisch trainiert wurde. Wir verwenden neuartige Trainingsmethoden, einschließlich ROPE, Group-Query-Attention und FlashAttention-2, um das Training zu beschleunigen, während die Modellleistung beibehalten wird. Darüber hinaus feinabstimmen wir das Modell unter Verwendung von 10 Millionen Beispielen von Anweisungsdaten, um die Ausrichtung zu verbessern. GEB-1.3B zeigt herausragende Leistungen bei allgemeinen Benchmarks wie MMLU, C-Eval und CMMLU und übertrifft vergleichbare Modelle wie MindLLM-1.3B und TinyLLaMA-1.1B. Bemerkenswert ist, dass die FP32-Version von GEB-1.3B lobenswerte Inferenzzeiten auf CPUs erreicht, wobei laufende Bemühungen zur weiteren Verbesserung der Geschwindigkeit durch fortschrittliche Quantisierungstechniken unternommen werden. Die Veröffentlichung von GEB-1.3B als Open-Source-Modell markiert einen bedeutenden Beitrag zur Entwicklung von leichten LLMs und verspricht, weitere Forschung und Innovationen auf diesem Gebiet zu fördern.
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and
Llama have demonstrated impressive abilities, and even surpass human-level
performance in several tasks. Despite their success, the resource-intensive
demands of these models, requiring significant computational power for both
training and inference, limit their deployment to high-performance servers.
Additionally, the extensive calculation requirements of the models often lead
to increased latency in response times. With the increasing need for LLMs to
operate efficiently on CPUs, research about lightweight models that are
optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a
lightweight LLM trained on 550 billion tokens in both Chinese and English
languages. We employ novel training techniques, including ROPE,
Group-Query-Attention, and FlashAttention-2, to accelerate training while
maintaining model performance. Additionally, we fine-tune the model using 10
million samples of instruction data to enhance alignment. GEB-1.3B exhibits
outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU,
outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B.
Notably, the FP32 version of GEB-1.3B achieves commendable inference times on
CPUs, with ongoing efforts to further enhance speed through advanced
quantization techniques. The release of GEB-1.3B as an open-source model marks
a significant contribution to the development of lightweight LLMs, promising to
foster further research and innovation in the field.Summary
AI-Generated Summary