LLaMA Pro:ブロック拡張による進化的LLaMA
LLaMA Pro: Progressive LLaMA with Block Expansion
January 4, 2024
著者: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI
要旨
人間は一般的に、古いスキルを損なうことなく新しいスキルを習得します。しかし、大規模言語モデル(LLMs)、例えばLLaMAからCodeLLaMAへの場合、その逆が当てはまります。この問題に対処するため、我々はTransformerブロックの拡張を伴う新しいポスト事前学習手法を提案します。拡張されたブロックを新しいコーパスのみでチューニングすることで、破滅的な忘却を起こすことなく、効率的かつ効果的にモデルの知識を向上させます。本論文では、コードと数学のコーパスを用いて実験を行い、LLaMA2-7Bから初期化された汎用基盤モデルであるLLaMA Pro-8.3Bを開発しました。このモデルは、一般的なタスク、プログラミング、数学において優れた性能を発揮します。LLaMA Proとその指示追従版(LLaMA Pro-Instruct)は、様々なベンチマークで先進的な性能を達成し、LLaMAファミリーの既存のオープンモデルを凌駕し、推論と多様なタスクへの対応能力を持つ知的エージェントとしての多大な可能性を示しています。我々の研究成果は、自然言語とプログラミング言語の統合に関する貴重な知見を提供し、様々な環境で効果的に動作する高度な言語エージェントの開発に堅固な基盤を築きます。
English
Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.