ChatPaper.aiChatPaper

Efficiënte Continue Voorafgaande Training door het Stabiliteitsgat te Verminderen

Efficient Continual Pre-training by Mitigating the Stability Gap

June 21, 2024
Auteurs: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen
cs.AI

Samenvatting

Voortdurende voorafgaande training is steeds meer de overheersende aanpak geworden voor het aanpassen van grote taalmodelen (LLMs) aan nieuwe domeinen. Dit proces omvat het bijwerken van het vooraf getrainde LLM met een corpus uit een nieuw domein, wat resulteert in een verschuiving in de trainingsdistributie. Om het gedrag van LLMs tijdens deze verschuiving te bestuderen, hebben we de prestaties van het model gedurende het voortdurende voorafgaande trainingsproces gemeten. We observeerden een tijdelijke prestatievermindering aan het begin, gevolgd door een herstelfase, een fenomeen dat bekend staat als de "stabiliteitskloof," eerder opgemerkt in vision-modellen die nieuwe klassen classificeren. Om dit probleem aan te pakken en de prestaties van LLMs binnen een vast rekenbudget te verbeteren, stellen we drie effectieve strategieën voor: (1) Voortdurend vooraf trainen van het LLM op een subset met een geschikte grootte voor meerdere epochs, wat resulteert in een sneller prestatieherstel dan het vooraf trainen van het LLM op een groot corpus in een enkele epoch; (2) Vooraf trainen van het LLM alleen op een hoogwaardig sub-corpus, wat snel de domeinprestaties verbetert; en (3) Gebruikmaken van een datamengsel dat vergelijkbaar is met de voorafgaande trainingsdata om de distributiekloof te verkleinen. We voeren verschillende experimenten uit op Llama-familie modellen om de effectiviteit van onze strategieën te valideren, zowel in medische voortdurende voorafgaande training als in instructieafstemming. Onze strategieën verbeteren bijvoorbeeld de gemiddelde medische taakprestatie van het OpenLlama-3B model van 36,2% naar 40,7% met slechts 40% van het oorspronkelijke trainingsbudget en verbeteren de gemiddelde algemene taakprestatie zonder vergeten te veroorzaken. Bovendien passen we onze strategieën toe op het Llama-3-8B model. Het resulterende model, Llama-3-Physician, behaalt de beste medische prestaties onder de huidige open-source modellen en presteert vergelijkbaar met of zelfs beter dan GPT-4 op verschillende medische benchmarks. We geven onze modellen vrij op https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
English
Continual pre-training has increasingly become the predominant approach for adapting Large Language Models (LLMs) to new domains. This process involves updating the pre-trained LLM with a corpus from a new domain, resulting in a shift in the training distribution. To study the behavior of LLMs during this shift, we measured the model's performance throughout the continual pre-training process. we observed a temporary performance drop at the beginning, followed by a recovery phase, a phenomenon known as the "stability gap," previously noted in vision models classifying new classes. To address this issue and enhance LLM performance within a fixed compute budget, we propose three effective strategies: (1) Continually pre-training the LLM on a subset with a proper size for multiple epochs, resulting in faster performance recovery than pre-training the LLM on a large corpus in a single epoch; (2) Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts domain performance; and (3) Using a data mixture similar to the pre-training data to reduce distribution gap. We conduct various experiments on Llama-family models to validate the effectiveness of our strategies in both medical continual pre-training and instruction tuning. For example, our strategies improve the average medical task performance of the OpenLlama-3B model from 36.2% to 40.7% with only 40% of the original training budget and enhance the average general task performance without causing forgetting. Furthermore, we apply our strategies to the Llama-3-8B model. The resulting model, Llama-3-Physician, achieves the best medical performance among current open-source models, and performs comparably to or even better than GPT-4 on several medical benchmarks. We release our models at https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
PDF201January 31, 2026