ChatPaper.aiChatPaper

LLaMA Pro: Прогрессивная LLaMA с блочным расширением

LLaMA Pro: Progressive LLaMA with Block Expansion

January 4, 2024
Авторы: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
cs.AI

Аннотация

Люди, как правило, приобретают новые навыки, не утрачивая старых; однако для крупных языковых моделей (LLM), таких как LLaMA и CodeLLaMA, наблюдается обратное. В связи с этим мы предлагаем новый метод пост-предварительного обучения LLM, основанный на расширении блоков Transformer. Мы настраиваем расширенные блоки, используя только новый корпус данных, что позволяет эффективно и результативно улучшать знания модели без катастрофического забывания. В данной работе мы проводим эксперименты на корпусах кода и математики, создавая LLaMA Pro-8.3B — универсальную базовую модель, инициализированную на основе LLaMA2-7B, которая демонстрирует превосходство в общих задачах, программировании и математике. LLaMA Pro и её версия, ориентированная на выполнение инструкций (LLaMA Pro-Instruct), показывают передовые результаты в различных тестах, превосходя существующие открытые модели семейства LLaMA и демонстрируя огромный потенциал в решении разнообразных задач в качестве интеллектуального агента. Наши результаты предоставляют ценные инсайты в области интеграции естественных и языков программирования, закладывая прочную основу для разработки продвинутых языковых агентов, эффективно работающих в различных средах.
English
Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.
PDF543December 15, 2024