ChatPaper.aiChatPaper

LLaMA Pro:ブロック拡張による進化的LLaMA

LLaMA Pro: Progressive LLaMA with Block Expansion

January 4, 2024
著者: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI

要旨

人間は一般的に、古いスキルを損なうことなく新しいスキルを習得します。しかし、大規模言語モデル(LLMs)、例えばLLaMAからCodeLLaMAへの場合、その逆が当てはまります。この問題に対処するため、我々はTransformerブロックの拡張を伴う新しいポスト事前学習手法を提案します。拡張されたブロックを新しいコーパスのみでチューニングすることで、破滅的な忘却を起こすことなく、効率的かつ効果的にモデルの知識を向上させます。本論文では、コードと数学のコーパスを用いて実験を行い、LLaMA2-7Bから初期化された汎用基盤モデルであるLLaMA Pro-8.3Bを開発しました。このモデルは、一般的なタスク、プログラミング、数学において優れた性能を発揮します。LLaMA Proとその指示追従版(LLaMA Pro-Instruct)は、様々なベンチマークで先進的な性能を達成し、LLaMAファミリーの既存のオープンモデルを凌駕し、推論と多様なタスクへの対応能力を持つ知的エージェントとしての多大な可能性を示しています。我々の研究成果は、自然言語とプログラミング言語の統合に関する貴重な知見を提供し、様々な環境で効果的に動作する高度な言語エージェントの開発に堅固な基盤を築きます。
English
Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.
PDF543December 15, 2024