Einfache und skalierbare Strategien zur kontinuierlichen Vortrainierung großer Sprachmodelle

papers.abstract

Große Sprachmodelle (LLMs) werden routinemäßig auf Milliarden von Tokens vorab trainiert, nur um den Prozess von vorne zu beginnen, sobald neue Daten verfügbar sind. Eine viel effizientere Lösung besteht darin, diese Modelle kontinuierlich vorzutrainieren, was im Vergleich zum erneuten Training erhebliche Rechenressourcen einspart. Die Verteilungsverschiebung, die durch neue Daten verursacht wird, führt jedoch in der Regel zu einer verschlechterten Leistung auf vorherigen Daten oder zu einer schlechten Anpassung an die neuen Daten. In dieser Arbeit zeigen wir, dass eine einfache und skalierbare Kombination aus dem Anpassen der Lernrate (LR), dem erneuten Verringern der LR und dem Wiederholen früherer Daten ausreicht, um die Leistung des vollständigen Neutrainierens von Grund auf auf allen verfügbaren Daten zu erreichen, gemessen an endgültigen Verlusten und Bewertungsbenchmarks für Sprachmodelle (LM). Speziell zeigen wir dies für eine schwache, aber realistische Verteilungsverschiebung zwischen zwei häufig verwendeten LLM-Vortrainingsdatensätzen (Englisch-nach-Englisch) und eine stärkere Verteilungsverschiebung (Englisch-nach-Deutsch) im Maßstab des 405-Millionen-Parameter-Modells mit großen Datensatzgrößen (Hunderte von Milliarden Tokens). Bei der Auswahl der schwachen, aber realistischen Verschiebung für Experimente im größeren Maßstab stellen wir auch fest, dass unsere kontinuierlichen Lernstrategien die Neutrainierungs-Baseline für ein 10-Milliarden-Parameter-LLM erreichen. Unsere Ergebnisse zeigen, dass LLMs erfolgreich über einfache und skalierbare kontinuierliche Lernstrategien aktualisiert werden können, wobei nur ein Bruchteil der Rechenressourcen verwendet wird, um die Neutrainierungs-Baseline zu erreichen. Schließlich schlagen wir, inspiriert von früheren Arbeiten, Alternativen zum kosinusbasierten Lernratenplan vor, die helfen, das Vergessen, das durch das Anpassen der LR verursacht wird, zu umgehen und nicht an ein festes Token-Budget gebunden sind.

English

Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by final loss and language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (EnglishrightarrowEnglish) and a stronger distribution shift (EnglishrightarrowGerman) at the 405M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget.

Einfache und skalierbare Strategien zur kontinuierlichen Vortrainierung großer Sprachmodelle

Simple and Scalable Strategies to Continually Pre-train Large Language Models

papers.abstract

Support