Einfache und skalierbare Strategien zur kontinuierlichen Vortrainierung großer Sprachmodelle
Simple and Scalable Strategies to Continually Pre-train Large Language Models
March 13, 2024
Autoren: Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden routinemäßig auf Milliarden von Tokens vorab trainiert, nur um den Prozess von vorne zu beginnen, sobald neue Daten verfügbar sind. Eine viel effizientere Lösung besteht darin, diese Modelle kontinuierlich vorzutrainieren, was im Vergleich zum erneuten Training erhebliche Rechenressourcen einspart. Die Verteilungsverschiebung, die durch neue Daten verursacht wird, führt jedoch in der Regel zu einer verschlechterten Leistung auf vorherigen Daten oder zu einer schlechten Anpassung an die neuen Daten. In dieser Arbeit zeigen wir, dass eine einfache und skalierbare Kombination aus dem Anpassen der Lernrate (LR), dem erneuten Verringern der LR und dem Wiederholen früherer Daten ausreicht, um die Leistung des vollständigen Neutrainierens von Grund auf auf allen verfügbaren Daten zu erreichen, gemessen an endgültigen Verlusten und Bewertungsbenchmarks für Sprachmodelle (LM). Speziell zeigen wir dies für eine schwache, aber realistische Verteilungsverschiebung zwischen zwei häufig verwendeten LLM-Vortrainingsdatensätzen (Englisch-nach-Englisch) und eine stärkere Verteilungsverschiebung (Englisch-nach-Deutsch) im Maßstab des 405-Millionen-Parameter-Modells mit großen Datensatzgrößen (Hunderte von Milliarden Tokens). Bei der Auswahl der schwachen, aber realistischen Verschiebung für Experimente im größeren Maßstab stellen wir auch fest, dass unsere kontinuierlichen Lernstrategien die Neutrainierungs-Baseline für ein 10-Milliarden-Parameter-LLM erreichen. Unsere Ergebnisse zeigen, dass LLMs erfolgreich über einfache und skalierbare kontinuierliche Lernstrategien aktualisiert werden können, wobei nur ein Bruchteil der Rechenressourcen verwendet wird, um die Neutrainierungs-Baseline zu erreichen. Schließlich schlagen wir, inspiriert von früheren Arbeiten, Alternativen zum kosinusbasierten Lernratenplan vor, die helfen, das Vergessen, das durch das Anpassen der LR verursacht wird, zu umgehen und nicht an ein festes Token-Budget gebunden sind.
English
Large language models (LLMs) are routinely pre-trained on billions of tokens,
only to start the process over again once new data becomes available. A much
more efficient solution is to continually pre-train these models, saving
significant compute compared to re-training. However, the distribution shift
induced by new data typically results in degraded performance on previous data
or poor adaptation to the new data. In this work, we show that a simple and
scalable combination of learning rate (LR) re-warming, LR re-decaying, and
replay of previous data is sufficient to match the performance of fully
re-training from scratch on all available data, as measured by final loss and
language model (LM) evaluation benchmarks. Specifically, we show this for a
weak but realistic distribution shift between two commonly used LLM
pre-training datasets (EnglishrightarrowEnglish) and a stronger distribution
shift (EnglishrightarrowGerman) at the 405M parameter model scale with
large dataset sizes (hundreds of billions of tokens). Selecting the weak but
realistic shift for larger-scale experiments, we also find that our continual
learning strategies match the re-training baseline for a 10B parameter LLM. Our
results demonstrate that LLMs can be successfully updated via simple and
scalable continual learning strategies, matching the re-training baseline using
only a fraction of the compute. Finally, inspired by previous work, we propose
alternatives to the cosine learning rate schedule that help circumvent
forgetting induced by LR re-warming and that are not bound to a fixed token
budget.Summary
AI-Generated Summary