ChatPaper.aiChatPaper

LLaMA Pro: LLaMA Progresivo con Expansión de Bloques

LLaMA Pro: Progressive LLaMA with Block Expansion

January 4, 2024
Autores: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI

Resumen

Los seres humanos generalmente adquieren nuevas habilidades sin comprometer las antiguas; sin embargo, lo contrario ocurre con los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como en el caso de LLaMA a CodeLLaMA. Para abordar esto, proponemos un nuevo método de post-entrenamiento para LLMs que incluye una expansión de bloques Transformer. Ajustamos los bloques expandidos utilizando únicamente un nuevo corpus, mejorando de manera eficiente y efectiva el conocimiento del modelo sin incurrir en olvido catastrófico. En este artículo, experimentamos con corpus de código y matemáticas, dando lugar a LLaMA Pro-8.3B, un modelo base versátil inicializado a partir de LLaMA2-7B, que destaca en tareas generales, programación y matemáticas. LLaMA Pro y su variante de seguimiento de instrucciones (LLaMA Pro-Instruct) logran un rendimiento avanzado en diversos benchmarks, demostrando superioridad sobre los modelos abiertos existentes en la familia LLaMA y el inmenso potencial para razonar y abordar diversas tareas como un agente inteligente. Nuestros hallazgos ofrecen valiosas perspectivas sobre la integración de lenguajes naturales y de programación, sentando una base sólida para el desarrollo de agentes lingüísticos avanzados que operen eficazmente en diversos entornos.
English
Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.
PDF543December 15, 2024