LLaMA Pro: Progressieve LLaMA met Blokuitbreiding
LLaMA Pro: Progressive LLaMA with Block Expansion
January 4, 2024
Auteurs: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI
Samenvatting
Mensen verwerven over het algemeen nieuwe vaardigheden zonder de oude te ondermijnen; voor Large Language Models (LLM's), zoals van LLaMA naar CodeLLaMA, geldt echter het tegenovergestelde. Daarom stellen we een nieuwe post-pretrainingsmethode voor LLM's voor, met een uitbreiding van Transformer-blokken. We tunen de uitgebreide blokken uitsluitend met nieuwe corpora, waardoor de kennis van het model efficiënt en effectief wordt verbeterd zonder catastrofaal vergeten. In dit artikel experimenteren we met corpora van code en wiskunde, wat resulteert in LLaMA Pro-8.3B, een veelzijdig foundationmodel geïnitialiseerd vanuit LLaMA2-7B, dat uitblinkt in algemene taken, programmeren en wiskunde. LLaMA Pro en zijn instructievolgende tegenhanger (LLaMA Pro-Instruct) behalen geavanceerde prestaties in diverse benchmarks, wat de superioriteit aantoont ten opzichte van bestaande open modellen in de LLaMA-familie en het immense potentieel van redeneren en het aanpakken van diverse taken als een intelligente agent. Onze bevindingen bieden waardevolle inzichten in de integratie van natuurlijke en programmeertalen, en leggen een solide basis voor de ontwikkeling van geavanceerde taalagentschappen die effectief opereren in diverse omgevingen.
English
Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.