GEB-1.3B: オープンな軽量大規模言語モデル
GEB-1.3B: Open Lightweight Large Language Model
June 14, 2024
著者: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
cs.AI
要旨
最近開発されたChatGPT、Claude、Llamaなどの大規模言語モデル(LLM)は、印象的な能力を示し、いくつかのタスクでは人間レベルの性能を凌駕しています。しかし、これらのモデルはリソース集約的であり、トレーニングと推論の両方に多大な計算能力を必要とするため、高性能サーバーへの展開が制限されています。さらに、モデルの膨大な計算要件は、応答時間の遅延を引き起こすことがよくあります。LLMがCPU上で効率的に動作する必要性が高まる中、CPU推論に最適化された軽量モデルに関する研究が登場しています。本論文では、5500億トークンの中国語と英語でトレーニングされた軽量LLMであるGEB-1.3Bを紹介します。我々は、ROPE、Group-Query-Attention、FlashAttention-2などの新しいトレーニング技術を採用し、モデルの性能を維持しながらトレーニングを加速しました。さらに、1000万サンプルの指示データを使用してモデルを微調整し、アラインメントを強化しました。GEB-1.3Bは、MMLU、C-Eval、CMMLUなどの一般的なベンチマークで優れた性能を示し、MindLLM-1.3BやTinyLLaMA-1.1Bなどの比較モデルを上回りました。特に、GEB-1.3BのFP32バージョンは、CPU上で良好な推論時間を達成し、高度な量子化技術を通じてさらなる速度向上を目指しています。GEB-1.3Bのオープンソースモデルとしてのリリースは、軽量LLMの開発に大きな貢献を果たし、この分野のさらなる研究と革新を促進することが期待されます。
English
Recently developed large language models (LLMs) such as ChatGPT, Claude, and
Llama have demonstrated impressive abilities, and even surpass human-level
performance in several tasks. Despite their success, the resource-intensive
demands of these models, requiring significant computational power for both
training and inference, limit their deployment to high-performance servers.
Additionally, the extensive calculation requirements of the models often lead
to increased latency in response times. With the increasing need for LLMs to
operate efficiently on CPUs, research about lightweight models that are
optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a
lightweight LLM trained on 550 billion tokens in both Chinese and English
languages. We employ novel training techniques, including ROPE,
Group-Query-Attention, and FlashAttention-2, to accelerate training while
maintaining model performance. Additionally, we fine-tune the model using 10
million samples of instruction data to enhance alignment. GEB-1.3B exhibits
outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU,
outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B.
Notably, the FP32 version of GEB-1.3B achieves commendable inference times on
CPUs, with ongoing efforts to further enhance speed through advanced
quantization techniques. The release of GEB-1.3B as an open-source model marks
a significant contribution to the development of lightweight LLMs, promising to
foster further research and innovation in the field.