LLaMA Pro: Progressives LLaMA mit Block-Erweiterung
LLaMA Pro: Progressive LLaMA with Block Expansion
January 4, 2024
Autoren: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI
Zusammenfassung
Menschen erwerben im Allgemeinen neue Fähigkeiten, ohne die alten zu beeinträchtigen; bei Large Language Models (LLMs), wie beispielsweise von LLaMA zu CodeLLaMA, ist jedoch das Gegenteil der Fall. Zu diesem Zweck schlagen wir eine neue Post-Pretraining-Methode für LLMs mit einer Erweiterung von Transformer-Blöcken vor. Wir optimieren die erweiterten Blöcke ausschließlich mit neuen Korpusdaten und verbessern so effizient und effektiv das Wissen des Modells, ohne katastrophales Vergessen zu verursachen. In dieser Arbeit experimentieren wir mit Korpusdaten aus den Bereichen Code und Mathematik und entwickeln LLaMA Pro-8.3B, ein vielseitiges Basismodell, das von LLaMA2-7B initialisiert wurde und in allgemeinen Aufgaben, Programmierung und Mathematik hervorragende Leistungen erbringt. LLaMA Pro und seine instruktionsfolgende Variante (LLaMA Pro-Instruct) erzielen fortgeschrittene Leistungen in verschiedenen Benchmarks und demonstrieren die Überlegenheit gegenüber bestehenden Open-Modellen der LLaMA-Familie sowie das immense Potenzial als intelligenter Agent in der Bewältigung vielfältiger Aufgaben und im logischen Denken. Unsere Erkenntnisse bieten wertvolle Einblicke in die Integration natürlicher und Programmiersprachen und legen eine solide Grundlage für die Entwicklung fortschrittlicher Sprachagenten, die in verschiedenen Umgebungen effektiv agieren können.
English
Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.