ChatPaper.aiChatPaper

LLaMA Pro: LLaMA Progressivo com Expansão de Blocos

LLaMA Pro: Progressive LLaMA with Block Expansion

January 4, 2024
Autores: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI

Resumo

Os seres humanos geralmente adquirem novas habilidades sem comprometer as antigas; no entanto, o oposto ocorre com os Modelos de Linguagem de Grande Escala (LLMs), como no caso de LLaMA para CodeLLaMA. Para isso, propomos um novo método de pós-pré-treinamento para LLMs com uma expansão de blocos Transformer. Ajustamos os blocos expandidos usando apenas novos corpora, melhorando de forma eficiente e eficaz o conhecimento do modelo sem causar esquecimento catastrófico. Neste artigo, realizamos experimentos com corpora de código e matemática, resultando no LLaMA Pro-8.3B, um modelo de base versátil inicializado a partir do LLaMA2-7B, que se destaca em tarefas gerais, programação e matemática. O LLaMA Pro e sua variante de seguimento de instruções (LLaMA Pro-Instruct) alcançam desempenho avançado em diversos benchmarks, demonstrando superioridade sobre os modelos abertos existentes na família LLaMA e o imenso potencial de raciocínio e resolução de diversas tarefas como um agente inteligente. Nossas descobertas fornecem insights valiosos para a integração de linguagens naturais e de programação, estabelecendo uma base sólida para o desenvolvimento de agentes de linguagem avançados que operam eficazmente em diversos ambientes.
English
Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.
PDF533February 8, 2026