ChatPaper.aiChatPaper

LLaMA Pro: 블록 확장을 통한 점진적 LLaMA

LLaMA Pro: Progressive LLaMA with Block Expansion

January 4, 2024
저자: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI

초록

인간은 일반적으로 기존의 기술을 손상시키지 않고 새로운 기술을 습득한다. 그러나 대형 언어 모델(LLMs)의 경우, 예를 들어 LLaMA에서 CodeLLaMA로의 전환에서와 같이 그 반대의 현상이 발생한다. 이를 해결하기 위해, 우리는 Transformer 블록을 확장한 새로운 사전 학습 후(post-pretraining) 방법을 제안한다. 우리는 확장된 블록을 새로운 코퍼스만을 사용하여 조정함으로써, 모델의 지식을 효율적이고 효과적으로 개선하면서도 치명적인 망각(catastrophic forgetting)을 방지한다. 본 논문에서는 코드와 수학 코퍼스를 대상으로 실험을 진행하여, LLaMA2-7B로 초기화된 다목적 기반 모델인 LLaMA Pro-8.3B를 개발하였다. 이 모델은 일반 작업, 프로그래밍, 수학 등에서 뛰어난 성능을 보인다. LLaMA Pro와 그 지시 따르기 버전(LLaMA Pro-Instruct)은 다양한 벤치마크에서 선진적인 성능을 달성하며, LLaMA 계열의 기존 오픈 모델들을 능가하는 우수성을 보여준다. 또한, 이 모델은 지능형 에이전트로서의 추론 능력과 다양한 작업 처리 능력의 엄청난 잠재력을 입증한다. 우리의 연구 결과는 자연어와 프로그래밍 언어의 통합에 대한 귀중한 통찰을 제공하며, 다양한 환경에서 효과적으로 작동하는 고급 언어 에이전트 개발을 위한 견고한 기반을 마련한다.
English
Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.
PDF543December 15, 2024