Effizientes Pre-Training mit Token-Superposition

Zusammenfassung

Das Vorabtraining großer Sprachmodelle ist oft unerschwinglich teuer und ineffizient in großem Maßstab, da komplexe und invasive Änderungen erforderlich sind, um einen hohen Datendurchsatz zu erreichen. In dieser Arbeit stellen wir das Token-Superposition-Training (TST) vor, eine einfache Drop-in-Methode, die den Datendurchsatz pro FLOP während des Vorabtrainings deutlich verbessert, ohne die Parallelisierung, den Optimierer, den Tokenizer, die Daten oder die Modellarchitektur zu verändern. TST erfolgt in zwei Phasen: (i) Eine hocheffiziente Superpositionsphase, in der wir viele zusammenhängende Token zu einem Bag kombinieren und mithilfe einer Multi-Hot-Kreuzentropie (MCE) trainieren, sowie (ii) eine Erholungsphase, in der wir zum Standardtraining zurückkehren. Wir evaluieren TST umfassend auf der Skala von 270M und 600M Parametern und validieren es an einem 3B- sowie einem 10B-A1B-Mixture-of-Experts-Modell, was zeigt, dass es in verschiedenen Umgebungen äußerst robust ist. Letztendlich übertrifft TST durchgehend die Baseline-Verlustfunktion und die nachgelagerten Evaluierungen, und bei gleichem Verlustniveau führt TST im 10B-A1B-Maßstab zu einer bis zu 2,5-fachen Reduzierung der gesamten Vorabtrainingszeit.

English

Pre-training of Large Language Models is often prohibitively expensive and inefficient at scale, requiring complex and invasive modifications in order to achieve high data throughput. In this work, we present Token-Superposition Training (TST), a simple drop-in method that significantly improves the data throughput per FLOPs during pre-training without modifying the parallelism, optimizer, tokenizer, data, or model architecture. TST is done in two phases: (i) A highly efficient superposition phase where we combine many contiguous tokens into one bag and train using a multi-hot cross-entropy (MCE) objective, and (ii) a recovery phase where we revert back to standard training. We extensively evaluate TST on the scale of 270M and 600M parameters and validate on 3B and a 10B A1B mixture of experts model, demonstrating that it is highly robust in different settings. Ultimately, TST consistently outperforms baseline loss and downstream evaluations, and under equal-loss settings, TST yields up to a 2.5x reduction in total pre-training time at the 10B A1B scale.

Effizientes Pre-Training mit Token-Superposition

Efficient Pre-Training with Token Superposition

Zusammenfassung

Support