Einfache und skalierbare Strategien zur kontinuierlichen Vortrainierung großer SprachmodelleSimple and Scalable Strategies to Continually Pre-train Large Language
Models
Große Sprachmodelle (LLMs) werden routinemäßig auf Milliarden von Tokens vorab trainiert, nur um den Prozess von vorne zu beginnen, sobald neue Daten verfügbar sind. Eine viel effizientere Lösung besteht darin, diese Modelle kontinuierlich vorzutrainieren, was im Vergleich zum erneuten Training erhebliche Rechenressourcen einspart. Die Verteilungsverschiebung, die durch neue Daten verursacht wird, führt jedoch in der Regel zu einer verschlechterten Leistung auf vorherigen Daten oder zu einer schlechten Anpassung an die neuen Daten. In dieser Arbeit zeigen wir, dass eine einfache und skalierbare Kombination aus dem Anpassen der Lernrate (LR), dem erneuten Verringern der LR und dem Wiederholen früherer Daten ausreicht, um die Leistung des vollständigen Neutrainierens von Grund auf auf allen verfügbaren Daten zu erreichen, gemessen an endgültigen Verlusten und Bewertungsbenchmarks für Sprachmodelle (LM). Speziell zeigen wir dies für eine schwache, aber realistische Verteilungsverschiebung zwischen zwei häufig verwendeten LLM-Vortrainingsdatensätzen (Englisch-nach-Englisch) und eine stärkere Verteilungsverschiebung (Englisch-nach-Deutsch) im Maßstab des 405-Millionen-Parameter-Modells mit großen Datensatzgrößen (Hunderte von Milliarden Tokens). Bei der Auswahl der schwachen, aber realistischen Verschiebung für Experimente im größeren Maßstab stellen wir auch fest, dass unsere kontinuierlichen Lernstrategien die Neutrainierungs-Baseline für ein 10-Milliarden-Parameter-LLM erreichen. Unsere Ergebnisse zeigen, dass LLMs erfolgreich über einfache und skalierbare kontinuierliche Lernstrategien aktualisiert werden können, wobei nur ein Bruchteil der Rechenressourcen verwendet wird, um die Neutrainierungs-Baseline zu erreichen. Schließlich schlagen wir, inspiriert von früheren Arbeiten, Alternativen zum kosinusbasierten Lernratenplan vor, die helfen, das Vergessen, das durch das Anpassen der LR verursacht wird, zu umgehen und nicht an ein festes Token-Budget gebunden sind.