Briser la bulle : Entraînement parallèle par pipeline asynchrone avec incohérence de poids bornée

Résumé

Le parallélisme de pipeline est essentiel pour l’entraînement de grands réseaux de neurones, mais les ordonnancements existants font des compromis entre débit, mémoire et cohérence d’optimisation. Les pipelines synchrones préservent la cohérence des poids entre les passes avant et arrière, mais souffrent de bulles ; les pipelines asynchrones éliminent les bulles mais introduisent un décalage de version des poids, nécessitant généralement des mécanismes de stockage, de prédiction ou de correction des poids. Nous présentons PACI (Pipeline Asynchrone avec Incohérence Contrôlée), une méthode de pipeline asynchrone sans bulle qui limite la dérive de version entre les passes avant et arrière sans stockage de poids, prédiction, copies de paramètres supplémentaires ni synchronisation globale. L’idée clé est d’utiliser l’accumulation locale de gradients comme mécanisme de contrôle de version : en ralentissant l’évolution de la version des paramètres par rapport au délai du pipeline, PACI limite le nombre de mises à jour de l’optimiseur traversées par tout micro-lot, tout en maintenant une utilisation en régime permanent. Lors du pré-entraînement de modèles de langage de type GPT, PACI égalise la stabilité et la perplexité finale du pipeline synchrone 1F1B-flush, conserve la même empreinte mémoire maximale, atteint un débit de pipeline pleinement utilisé et améliore le temps d’entraînement jusqu’à la précision d’un facteur allant jusqu’à 1,69 par rapport à la référence de flush la plus rapide. Ces résultats montrent que l’incohérence entre passes avant et arrière n’a pas besoin d’être éliminée : une fois explicitement bornée, elle peut être échangée en toute sécurité contre des gains d’efficacité substantiels.

English

Pipeline parallelism is essential for training large neural networks, but existing schedules trade off throughput, memory, and optimization consistency. Synchronous pipelines preserve forward/backward weight consistency but suffer from bubbles; asynchronous pipelines remove bubbles but introduce weight-version mismatch, typically requiring weight stashing, prediction, or correction mechanisms. We introduce PACI (Pipeline Asynchronous training with Controlled Inconsistency), a bubble-free asynchronous pipeline method that bounds forward/backward version drift without weight stashing, prediction, additional parameter copies, or global synchronization. The key idea is to use local gradient accumulation as a version-control mechanism: by slowing parameter-version evolution relative to pipeline delay, PACI limits the number of optimizer updates crossed by any micro-batch while preserving steady-state utilization. In GPT-style language-model pretraining, PACI matches the stability and final perplexity of synchronous 1F1B-flush, retains the same peak memory footprint, achieves fully utilized pipeline throughput, and improves training time-to-accuracy by up to 1.69times over the fastest flush baseline. These results show that forward/backward inconsistency need not be eliminated: when explicitly bounded, it can be safely traded for substantial efficiency gains.