Addestramento Continuo Efficiente attraverso la Mitigazione del Divario di Stabilità
Efficient Continual Pre-training by Mitigating the Stability Gap
June 21, 2024
Autori: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen
cs.AI
Abstract
Il pre-training continuo è diventato sempre più l'approccio predominante per adattare i Large Language Models (LLMs) a nuovi domini. Questo processo prevede l'aggiornamento del LLM pre-addestrato con un corpus proveniente da un nuovo dominio, determinando uno spostamento nella distribuzione di addestramento. Per studiare il comportamento dei LLMs durante questo spostamento, abbiamo misurato le prestazioni del modello durante l'intero processo di pre-training continuo. Abbiamo osservato un calo temporaneo delle prestazioni all'inizio, seguito da una fase di recupero, un fenomeno noto come "stabilità gap," precedentemente osservato nei modelli di visione che classificano nuove classi. Per affrontare questo problema e migliorare le prestazioni dei LLMs con un budget computazionale fisso, proponiamo tre strategie efficaci: (1) Eseguire il pre-training continuo del LLM su un sottoinsieme di dimensioni adeguate per più epoche, ottenendo un recupero delle prestazioni più rapido rispetto al pre-training del LLM su un ampio corpus in una singola epoca; (2) Eseguire il pre-training del LLM solo su un sotto-corpus di alta qualità, che migliora rapidamente le prestazioni nel dominio; e (3) Utilizzare una miscela di dati simile ai dati di pre-training per ridurre il divario di distribuzione. Abbiamo condotto vari esperimenti sui modelli della famiglia Llama per validare l'efficacia delle nostre strategie sia nel pre-training continuo medico che nel tuning delle istruzioni. Ad esempio, le nostre strategie migliorano la prestazione media nei compiti medici del modello OpenLlama-3B dal 36,2% al 40,7% utilizzando solo il 40% del budget di addestramento originale e migliorano la prestazione media nei compiti generali senza causare dimenticanza. Inoltre, abbiamo applicato le nostre strategie al modello Llama-3-8B. Il modello risultante, Llama-3-Physician, raggiunge le migliori prestazioni mediche tra i modelli open-source attuali e si comporta in modo comparabile o addirittura migliore rispetto a GPT-4 su diversi benchmark medici. Rilasciamo i nostri modelli su https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
English
Continual pre-training has increasingly become the predominant approach for
adapting Large Language Models (LLMs) to new domains. This process involves
updating the pre-trained LLM with a corpus from a new domain, resulting in a
shift in the training distribution. To study the behavior of LLMs during this
shift, we measured the model's performance throughout the continual
pre-training process. we observed a temporary performance drop at the
beginning, followed by a recovery phase, a phenomenon known as the "stability
gap," previously noted in vision models classifying new classes. To address
this issue and enhance LLM performance within a fixed compute budget, we
propose three effective strategies: (1) Continually pre-training the LLM on a
subset with a proper size for multiple epochs, resulting in faster performance
recovery than pre-training the LLM on a large corpus in a single epoch; (2)
Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts
domain performance; and (3) Using a data mixture similar to the pre-training
data to reduce distribution gap. We conduct various experiments on Llama-family
models to validate the effectiveness of our strategies in both medical
continual pre-training and instruction tuning. For example, our strategies
improve the average medical task performance of the OpenLlama-3B model from
36.2% to 40.7% with only 40% of the original training budget and enhance the
average general task performance without causing forgetting. Furthermore, we
apply our strategies to the Llama-3-8B model. The resulting model,
Llama-3-Physician, achieves the best medical performance among current
open-source models, and performs comparably to or even better than GPT-4 on
several medical benchmarks. We release our models at
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.