Durchbrechen der Blase: Asynchrones Pipeline-Parallel-Training mit beschränkter Gewichtsinistenz

Zusammenfassung

Pipeline-Parallelismus ist für das Training großer neuronaler Netze unerlässlich, doch bestehende Scheduling-Strategien erfordern Kompromisse zwischen Durchsatz, Speicherbedarf und Optimierungskonsistenz. Synchrone Pipelines gewährleisten Konsistenz der Vorwärts-/Rückwärtsgewichte, leiden jedoch unter Leerlaufzeiten (Bubbles); asynchrone Pipelines beseitigen Bubbles, führen aber zu einer Verschiebung der Gewichtsversionen, was typischerweise Mechanismen zur Gewichtszwischenspeicherung (Weight Stashing), Vorhersage oder Korrektur erforderlich macht. Wir stellen PACI (Pipeline Asynchronous training with Controlled Inconsistency) vor, eine bubble-freie asynchrone Pipeline-Methode, die die Vorwärts-/Rückwärts-Versionsdrift ohne Weight Stashing, Vorhersage, zusätzliche Parameterkopien oder globale Synchronisation begrenzt. Die Kernidee besteht darin, lokale Gradientenakkumulation als Versionskontrollmechanismus zu nutzen: Indem die Entwicklung der Parameterversion im Verhältnis zur Pipeline-Verzögerung verlangsamt wird, begrenzt PACI die Anzahl der Optimierer-Updates, die ein Mikro-Batch durchläuft, während die Auslastung im stationären Zustand erhalten bleibt. Im Pretraining von GPT-ähnlichen Sprachmodellen erreicht PACI die Stabilität und finale Perplexität des synchronen 1F1B-Flush, behält den gleichen Spitzenspeicherbedarf bei, erzielt einen voll ausgelasteten Pipeline-Durchsatz und verbessert die Zeit bis zur Zielgenauigkeit um bis zu das 1,69-Fache im Vergleich zur schnellsten Flush-Baseline. Diese Ergebnisse zeigen, dass Vorwärts-/Rückwärts-Inkonsistenz nicht eliminiert werden muss: Wird sie explizit begrenzt, kann sie sicher gegen erhebliche Effizienzsteigerungen eingetauscht werden.

English

Pipeline parallelism is essential for training large neural networks, but existing schedules trade off throughput, memory, and optimization consistency. Synchronous pipelines preserve forward/backward weight consistency but suffer from bubbles; asynchronous pipelines remove bubbles but introduce weight-version mismatch, typically requiring weight stashing, prediction, or correction mechanisms. We introduce PACI (Pipeline Asynchronous training with Controlled Inconsistency), a bubble-free asynchronous pipeline method that bounds forward/backward version drift without weight stashing, prediction, additional parameter copies, or global synchronization. The key idea is to use local gradient accumulation as a version-control mechanism: by slowing parameter-version evolution relative to pipeline delay, PACI limits the number of optimizer updates crossed by any micro-batch while preserving steady-state utilization. In GPT-style language-model pretraining, PACI matches the stability and final perplexity of synchronous 1F1B-flush, retains the same peak memory footprint, achieves fully utilized pipeline throughput, and improves training time-to-accuracy by up to 1.69times over the fastest flush baseline. These results show that forward/backward inconsistency need not be eliminated: when explicitly bounded, it can be safely traded for substantial efficiency gains.