ChatPaper.aiChatPaper

バブルの打破:制約付き重み不一致を伴う非同期パイプライン並列学習

Breaking the Bubble: Asynchronous Pipeline Parallel Training with Bounded Weight Inconsistency

June 5, 2026
著者: Itay Elam, Eliron Rahimi, Avi Mendelson, Chaim Baskin
cs.AI

要旨

パイプライン並列処理は大規模ニューラルネットワークの訓練に不可欠であるが、既存のスケジュールはスループット、メモリ、最適化の一貫性の間でトレードオフを抱えている。同期パイプラインは順方向/逆方向の重みの一貫性を維持するが、バブル(空き時間)が発生する。非同期パイプラインはバブルを排除する一方で、重みのバージョン不一致を引き起こし、通常は重みのスタッシング、予測、または補正機構が必要となる。本稿では、PACI(制御された不一致を伴うパイプライン非同期訓練法)を提案する。これはバブルのない非同期パイプライン手法であり、重みのスタッシング、予測、追加のパラメータコピー、グローバル同期を必要とせずに、順方向/逆方向のバージョンずれを抑制する。鍵となるアイデアは、局所的な勾配蓄積をバージョン管理機構として利用することである。すなわち、パイプラインレイテンシに対してパラメータバージョンの進化を遅らせることで、PACIは任意のマイクロバッチがまたがる最適化器更新の回数を制限しつつ、定常状態の資源利用率を維持する。GPT型言語モデルの事前学習において、PACIは同期1F1Bフラッシュ手法と同等の安定性と最終的なperplexityを達成し、同一のピークメモリフットプリントを保持しつつ、パイプラインスループットを完全に活用し、最速のフラッシュベースラインと比較して精度達成時間を最大1.69倍改善する。これらの結果は、順方向/逆方向の不一致を排除する必要はなく、明示的に制限すれば、大幅な効率向上と安全にトレードオフできることを示している。
English
Pipeline parallelism is essential for training large neural networks, but existing schedules trade off throughput, memory, and optimization consistency. Synchronous pipelines preserve forward/backward weight consistency but suffer from bubbles; asynchronous pipelines remove bubbles but introduce weight-version mismatch, typically requiring weight stashing, prediction, or correction mechanisms. We introduce PACI (Pipeline Asynchronous training with Controlled Inconsistency), a bubble-free asynchronous pipeline method that bounds forward/backward version drift without weight stashing, prediction, additional parameter copies, or global synchronization. The key idea is to use local gradient accumulation as a version-control mechanism: by slowing parameter-version evolution relative to pipeline delay, PACI limits the number of optimizer updates crossed by any micro-batch while preserving steady-state utilization. In GPT-style language-model pretraining, PACI matches the stability and final perplexity of synchronous 1F1B-flush, retains the same peak memory footprint, achieves fully utilized pipeline throughput, and improves training time-to-accuracy by up to 1.69times over the fastest flush baseline. These results show that forward/backward inconsistency need not be eliminated: when explicitly bounded, it can be safely traded for substantial efficiency gains.