Vorabtraining von kleinen Basissprachmodellen mit weniger Tokens.Pre-training Small Base LMs with Fewer Tokens
Wir untersuchen die Wirksamkeit eines einfachen Ansatzes zur Entwicklung eines kleinen Basissprachmodells (LM) ausgehend von einem bestehenden großen Basissprachmodell: Zunächst erben wir einige Transformer-Blöcke vom größeren LM und trainieren dann dieses kleinere Modell auf einem sehr kleinen Teil (0,1 %) der Rohdaten des größeren Modells. Wir nennen unser einfaches Rezept "Inheritune" und demonstrieren es zunächst für den Aufbau eines kleinen Basissprachmodells mit 1,5 Milliarden Parametern unter Verwendung von 1 Milliarde Tokens (und einigen anfänglichen Schichten des größeren LM mit 3 Milliarden Parametern); dies geschieht unter Verwendung einer einzelnen A6000 GPU für weniger als einen halben Tag. Über 9 verschiedene Evaluierungsdatensätze sowie den MMLU-Benchmark hinweg schneidet das resultierende Modell im Vergleich zu öffentlich verfügbaren Basismodellen der Größe 1-2 Milliarden günstig ab, von denen einige mit 50-1000-mal mehr Tokens trainiert wurden. Wir untersuchen Inheritune in einer etwas anderen Konfiguration, bei der wir kleine LMs unter Verwendung größerer LMs und deren vollständigem Vortrainingsdatensatz trainieren. Hier zeigen wir, dass kleinere LMs, die einige der Schichten von GPT2-medium (355M) und GPT-2-large (770M) nutzen, effektiv den Val-Verlust ihrer größeren Gegenstücke erreichen können, wenn sie für die gleiche Anzahl von Trainingsschritten auf dem OpenWebText-Datensatz mit 9 Milliarden Tokens von Grund auf trainiert werden. Wir analysieren unser Rezept mit umfangreichen Experimenten und zeigen seine Wirksamkeit in verschiedenen Konfigurationen. Unser Code ist verfügbar unter https://github.com/sanyalsunny111/LLM-Inheritune.