LLaMA Pro: Progressieve LLaMA met Blokuitbreiding

Samenvatting

Mensen verwerven over het algemeen nieuwe vaardigheden zonder de oude te ondermijnen; voor Large Language Models (LLM's), zoals van LLaMA naar CodeLLaMA, geldt echter het tegenovergestelde. Daarom stellen we een nieuwe post-pretrainingsmethode voor LLM's voor, met een uitbreiding van Transformer-blokken. We tunen de uitgebreide blokken uitsluitend met nieuwe corpora, waardoor de kennis van het model efficiënt en effectief wordt verbeterd zonder catastrofaal vergeten. In dit artikel experimenteren we met corpora van code en wiskunde, wat resulteert in LLaMA Pro-8.3B, een veelzijdig foundationmodel geïnitialiseerd vanuit LLaMA2-7B, dat uitblinkt in algemene taken, programmeren en wiskunde. LLaMA Pro en zijn instructievolgende tegenhanger (LLaMA Pro-Instruct) behalen geavanceerde prestaties in diverse benchmarks, wat de superioriteit aantoont ten opzichte van bestaande open modellen in de LLaMA-familie en het immense potentieel van redeneren en het aanpakken van diverse taken als een intelligente agent. Onze bevindingen bieden waardevolle inzichten in de integratie van natuurlijke en programmeertalen, en leggen een solide basis voor de ontwikkeling van geavanceerde taalagentschappen die effectief opereren in diverse omgevingen.

English

Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.

LLaMA Pro: Progressieve LLaMA met Blokuitbreiding

LLaMA Pro: Progressive LLaMA with Block Expansion

Samenvatting

Support