ChatPaper.aiChatPaper

LLaMA Pro : LLaMA Progressive avec Expansion par Blocs

LLaMA Pro: Progressive LLaMA with Block Expansion

January 4, 2024
Auteurs: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI

Résumé

Les humains acquièrent généralement de nouvelles compétences sans compromettre les anciennes ; cependant, l'inverse est vrai pour les modèles de langage de grande taille (LLMs), par exemple, de LLaMA à CodeLLaMA. À cette fin, nous proposons une nouvelle méthode de post-prétraitement pour les LLMs avec une expansion des blocs Transformer. Nous ajustons les blocs élargis en utilisant uniquement un nouveau corpus, améliorant ainsi de manière efficace et efficiente les connaissances du modèle sans oubli catastrophique. Dans cet article, nous expérimentons sur des corpus de code et de mathématiques, produisant LLaMA Pro-8.3B, un modèle de base polyvalent initialisé à partir de LLaMA2-7B, excellant dans les tâches générales, la programmation et les mathématiques. LLaMA Pro et sa version adaptée au suivi d'instructions (LLaMA Pro-Instruct) obtiennent des performances avancées dans divers benchmarks, démontrant une supériorité par rapport aux modèles ouverts existants de la famille LLaMA et le potentiel immense de raisonnement et de traitement de tâches variées en tant qu'agent intelligent. Nos résultats fournissent des insights précieux sur l'intégration des langages naturels et de programmation, posant une base solide pour le développement d'agents linguistiques avancés opérant efficacement dans divers environnements.
English
Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.
PDF543December 15, 2024