LLaMA Pro: LLaMA Progresivo con Expansión de Bloques
LLaMA Pro: Progressive LLaMA with Block Expansion
January 4, 2024
Autores: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI
Resumen
Los seres humanos generalmente adquieren nuevas habilidades sin comprometer las antiguas; sin embargo, lo contrario ocurre con los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como en el caso de LLaMA a CodeLLaMA. Para abordar esto, proponemos un nuevo método de post-entrenamiento para LLMs que incluye una expansión de bloques Transformer. Ajustamos los bloques expandidos utilizando únicamente un nuevo corpus, mejorando de manera eficiente y efectiva el conocimiento del modelo sin incurrir en olvido catastrófico. En este artículo, experimentamos con corpus de código y matemáticas, dando lugar a LLaMA Pro-8.3B, un modelo base versátil inicializado a partir de LLaMA2-7B, que destaca en tareas generales, programación y matemáticas. LLaMA Pro y su variante de seguimiento de instrucciones (LLaMA Pro-Instruct) logran un rendimiento avanzado en diversos benchmarks, demostrando superioridad sobre los modelos abiertos existentes en la familia LLaMA y el inmenso potencial para razonar y abordar diversas tareas como un agente inteligente. Nuestros hallazgos ofrecen valiosas perspectivas sobre la integración de lenguajes naturales y de programación, sentando una base sólida para el desarrollo de agentes lingüísticos avanzados que operen eficazmente en diversos entornos.
English
Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.