LLaMA Pro: Прогрессивная LLaMA с блочным расширением
LLaMA Pro: Progressive LLaMA with Block Expansion
January 4, 2024
Авторы: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI
Аннотация
Люди, как правило, приобретают новые навыки, не утрачивая старых; однако для крупных языковых моделей (LLM), таких как LLaMA и CodeLLaMA, наблюдается обратное. В связи с этим мы предлагаем новый метод пост-предварительного обучения LLM, основанный на расширении блоков Transformer. Мы настраиваем расширенные блоки, используя только новый корпус данных, что позволяет эффективно и результативно улучшать знания модели без катастрофического забывания. В данной работе мы проводим эксперименты на корпусах кода и математики, создавая LLaMA Pro-8.3B — универсальную базовую модель, инициализированную на основе LLaMA2-7B, которая демонстрирует превосходство в общих задачах, программировании и математике. LLaMA Pro и её версия, ориентированная на выполнение инструкций (LLaMA Pro-Instruct), показывают передовые результаты в различных тестах, превосходя существующие открытые модели семейства LLaMA и демонстрируя огромный потенциал в решении разнообразных задач в качестве интеллектуального агента. Наши результаты предоставляют ценные инсайты в области интеграции естественных и языков программирования, закладывая прочную основу для разработки продвинутых языковых агентов, эффективно работающих в различных средах.
English
Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.