Effizientes kontinuierliches Vortraining durch Reduzierung des Stabilitätsunterschieds.
Efficient Continual Pre-training by Mitigating the Stability Gap
June 21, 2024
Autoren: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen
cs.AI
Zusammenfassung
Die kontinuierliche Vor-Trainierung hat sich zunehmend als vorherrschender Ansatz für die Anpassung von Großen Sprachmodellen (LLMs) an neue Bereiche etabliert. Dieser Prozess beinhaltet das Aktualisieren des vor-trainierten LLMs mit einem Korpus aus einem neuen Bereich, was zu einer Verschiebung in der Trainingsverteilung führt. Um das Verhalten von LLMs während dieser Verschiebung zu untersuchen, haben wir die Leistung des Modells während des kontinuierlichen Vor-Trainierungsprozesses gemessen. Wir beobachteten einen vorübergehenden Leistungsabfall zu Beginn, gefolgt von einer Erholungsphase, ein Phänomen, das als "Stabilitätslücke" bekannt ist, das zuvor bei Vision-Modellen, die neue Klassen klassifizieren, festgestellt wurde. Um dieses Problem anzugehen und die Leistung von LLMs innerhalb eines festen Rechenbudgets zu verbessern, schlagen wir drei effektive Strategien vor: (1) Kontinuierliches Vor-Trainieren des LLMs auf einem Subset mit einer angemessenen Größe für mehrere Epochen, was zu einer schnelleren Leistungswiederherstellung führt als das Vor-Trainieren des LLMs auf einem großen Korpus in einer einzigen Epoche; (2) Vor-Trainieren des LLMs nur auf hochwertigem Sub-Korpus, was die Leistung im Bereich schnell steigert; und (3) Verwendung einer Datenmischung, die der Vor-Trainierungsdaten ähnelt, um die Verteilungslücke zu verringern. Wir führen verschiedene Experimente an Llama-Familienmodellen durch, um die Wirksamkeit unserer Strategien sowohl beim medizinischen kontinuierlichen Vor-Trainieren als auch beim Anpassen von Anweisungen zu validieren. Beispielsweise verbessern unsere Strategien die durchschnittliche medizinische Leistungsaufgabe des OpenLlama-3B-Modells von 36,2 % auf 40,7 % mit nur 40 % des ursprünglichen Trainingsbudgets und verbessern die durchschnittliche allgemeine Leistungsaufgabe, ohne ein Vergessen zu verursachen. Darüber hinaus wenden wir unsere Strategien auf das Llama-3-8B-Modell an. Das resultierende Modell, Llama-3-Physician, erzielt die beste medizinische Leistung unter aktuellen Open-Source-Modellen und schneidet in mehreren medizinischen Benchmarks vergleichbar oder sogar besser ab als GPT-4. Wir veröffentlichen unsere Modelle unter https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
English
Continual pre-training has increasingly become the predominant approach for
adapting Large Language Models (LLMs) to new domains. This process involves
updating the pre-trained LLM with a corpus from a new domain, resulting in a
shift in the training distribution. To study the behavior of LLMs during this
shift, we measured the model's performance throughout the continual
pre-training process. we observed a temporary performance drop at the
beginning, followed by a recovery phase, a phenomenon known as the "stability
gap," previously noted in vision models classifying new classes. To address
this issue and enhance LLM performance within a fixed compute budget, we
propose three effective strategies: (1) Continually pre-training the LLM on a
subset with a proper size for multiple epochs, resulting in faster performance
recovery than pre-training the LLM on a large corpus in a single epoch; (2)
Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts
domain performance; and (3) Using a data mixture similar to the pre-training
data to reduce distribution gap. We conduct various experiments on Llama-family
models to validate the effectiveness of our strategies in both medical
continual pre-training and instruction tuning. For example, our strategies
improve the average medical task performance of the OpenLlama-3B model from
36.2% to 40.7% with only 40% of the original training budget and enhance the
average general task performance without causing forgetting. Furthermore, we
apply our strategies to the Llama-3-8B model. The resulting model,
Llama-3-Physician, achieves the best medical performance among current
open-source models, and performs comparably to or even better than GPT-4 on
several medical benchmarks. We release our models at
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.Summary
AI-Generated Summary