Эффективное непрерывное предварительное обучение путем снижения разрыва стабильности.
Efficient Continual Pre-training by Mitigating the Stability Gap
June 21, 2024
Авторы: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen
cs.AI
Аннотация
Продолжительное предварительное обучение все более становится основным подходом для адаптации крупных языковых моделей (КЯМ) к новым областям. Этот процесс включает в себя обновление предварительно обученной КЯМ корпусом из новой области, что приводит к изменению распределения обучения. Для изучения поведения КЯМ во время этого изменения мы измерили производительность модели на протяжении процесса продолжительного предварительного обучения. Мы обнаружили временное снижение производительности в начале, за которым последовала фаза восстановления, феномен, известный как "разрыв стабильности", ранее отмеченный в моделях зрения, классифицирующих новые классы. Для решения этой проблемы и улучшения производительности КЯМ в рамках фиксированного вычислительного бюджета мы предлагаем три эффективные стратегии: (1) Постоянное предварительное обучение КЯМ на подмножестве правильного размера в течение нескольких эпох, что приводит к более быстрому восстановлению производительности, чем предварительное обучение КЯМ на большом корпусе за одну эпоху; (2) Предварительное обучение КЯМ только на высококачественном подкорпусе, что быстро повышает производительность в области; и (3) Использование смеси данных, аналогичной данным предварительного обучения, для уменьшения разрыва в распределении. Мы проводим различные эксперименты на моделях семейства Llama для подтверждения эффективности наших стратегий как в медицинском продолжительном предварительном обучении, так и в настройке инструкций. Например, наши стратегии улучшают среднюю производительность медицинской задачи модели OpenLlama-3B с 36,2% до 40,7% всего с 40% от изначального бюджета обучения и улучшают среднюю общую производительность задач без вызывания забывания. Более того, мы применяем наши стратегии к модели Llama-3-8B. Полученная модель, Llama-3-Physician, достигает лучшей медицинской производительности среди текущих моделей с открытым исходным кодом и выполняет сравнимо или даже лучше, чем GPT-4, на нескольких медицинских бенчмарках. Мы выпускаем наши модели на сайте https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
English
Continual pre-training has increasingly become the predominant approach for
adapting Large Language Models (LLMs) to new domains. This process involves
updating the pre-trained LLM with a corpus from a new domain, resulting in a
shift in the training distribution. To study the behavior of LLMs during this
shift, we measured the model's performance throughout the continual
pre-training process. we observed a temporary performance drop at the
beginning, followed by a recovery phase, a phenomenon known as the "stability
gap," previously noted in vision models classifying new classes. To address
this issue and enhance LLM performance within a fixed compute budget, we
propose three effective strategies: (1) Continually pre-training the LLM on a
subset with a proper size for multiple epochs, resulting in faster performance
recovery than pre-training the LLM on a large corpus in a single epoch; (2)
Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts
domain performance; and (3) Using a data mixture similar to the pre-training
data to reduce distribution gap. We conduct various experiments on Llama-family
models to validate the effectiveness of our strategies in both medical
continual pre-training and instruction tuning. For example, our strategies
improve the average medical task performance of the OpenLlama-3B model from
36.2% to 40.7% with only 40% of the original training budget and enhance the
average general task performance without causing forgetting. Furthermore, we
apply our strategies to the Llama-3-8B model. The resulting model,
Llama-3-Physician, achieves the best medical performance among current
open-source models, and performs comparably to or even better than GPT-4 on
several medical benchmarks. We release our models at
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.Summary
AI-Generated Summary