LLaMA Pro : LLaMA Progressive avec Expansion par Blocs
LLaMA Pro: Progressive LLaMA with Block Expansion
January 4, 2024
Auteurs: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI
Résumé
Les humains acquièrent généralement de nouvelles compétences sans compromettre les anciennes ; cependant, l'inverse est vrai pour les modèles de langage de grande taille (LLMs), par exemple, de LLaMA à CodeLLaMA. À cette fin, nous proposons une nouvelle méthode de post-prétraitement pour les LLMs avec une expansion des blocs Transformer. Nous ajustons les blocs élargis en utilisant uniquement un nouveau corpus, améliorant ainsi de manière efficace et efficiente les connaissances du modèle sans oubli catastrophique. Dans cet article, nous expérimentons sur des corpus de code et de mathématiques, produisant LLaMA Pro-8.3B, un modèle de base polyvalent initialisé à partir de LLaMA2-7B, excellant dans les tâches générales, la programmation et les mathématiques. LLaMA Pro et sa version adaptée au suivi d'instructions (LLaMA Pro-Instruct) obtiennent des performances avancées dans divers benchmarks, démontrant une supériorité par rapport aux modèles ouverts existants de la famille LLaMA et le potentiel immense de raisonnement et de traitement de tâches variées en tant qu'agent intelligent. Nos résultats fournissent des insights précieux sur l'intégration des langages naturels et de programmation, posant une base solide pour le développement d'agents linguistiques avancés opérant efficacement dans divers environnements.
English
Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.