LLaMA Pro: LLaMA Progressivo con Espansione a Blocchi
LLaMA Pro: Progressive LLaMA with Block Expansion
January 4, 2024
Autori: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI
Abstract
Gli esseri umani generalmente acquisiscono nuove competenze senza compromettere quelle precedenti; tuttavia, il contrario vale per i Large Language Models (LLM), ad esempio da LLaMA a CodeLLaMA. A tal fine, proponiamo un nuovo metodo di post-pretraining per i LLM con un'espansione dei blocchi Transformer. Ottimizziamo i blocchi espansi utilizzando solo nuovi corpora, migliorando in modo efficiente ed efficace la conoscenza del modello senza incorrere in dimenticanza catastrofica. In questo articolo, sperimentiamo su corpora di codice e matematica, ottenendo LLaMA Pro-8.3B, un modello di base versatile inizializzato da LLaMA2-7B, eccellente in compiti generali, programmazione e matematica. LLaMA Pro e la sua controparte che segue le istruzioni (LLaMA Pro-Instruct) raggiungono prestazioni avanzate in vari benchmark, dimostrando una superiorità rispetto ai modelli open esistenti della famiglia LLaMA e il potenziale immenso nel ragionamento e nell'affrontare compiti diversi come agenti intelligenti. Le nostre scoperte forniscono intuizioni preziose sull'integrazione di linguaggi naturali e di programmazione, gettando una solida base per lo sviluppo di agenti linguistici avanzati che operano efficacemente in vari ambienti.
English
Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.