Quebrando a Bolha: Treinamento Paralelo de Pipeline Assíncrono com Inconsistência de Pesos Limitada

Resumo

O paralelismo de pipeline é essencial para treinar grandes redes neurais, mas os esquemas existentes fazem trocas entre vazão, memória e consistência de otimização. Pipelines síncronos preservam a consistência dos pesos entre forward e backward, mas sofrem de bolhas; pipelines assíncronos removem bolhas, mas introduzem incompatibilidade de versão dos pesos, tipicamente exigindo armazenamento de pesos, predição ou mecanismos de correção. Apresentamos o PACI (Pipeline Asynchronous training with Controlled Inconsistency), um método de pipeline assíncrono livre de bolhas que limita o desvio de versão forward/backward sem armazenamento de pesos, predição, cópias adicionais de parâmetros ou sincronização global. A ideia principal é usar a acumulação local de gradientes como um mecanismo de controle de versão: ao desacelerar a evolução da versão dos parâmetros em relação ao atraso do pipeline, o PACI limita o número de atualizações do otimizador atravessadas por qualquer micro-lote, preservando a utilização em estado estacionário. No pré-treinamento de modelos de linguagem estilo GPT, o PACI iguala a estabilidade e a perplexidade final do síncrono 1F1B-flush, mantém a mesma pegada de pico de memória, alcança vazão total de pipeline e melhora o tempo para atingir a acurácia em até 1,69 vezes em relação à linha de base flush mais rápida. Esses resultados mostram que a inconsistência forward/backward não precisa ser eliminada: quando explicitamente limitada, pode ser trocada com segurança por ganhos substanciais de eficiência.

English

Pipeline parallelism is essential for training large neural networks, but existing schedules trade off throughput, memory, and optimization consistency. Synchronous pipelines preserve forward/backward weight consistency but suffer from bubbles; asynchronous pipelines remove bubbles but introduce weight-version mismatch, typically requiring weight stashing, prediction, or correction mechanisms. We introduce PACI (Pipeline Asynchronous training with Controlled Inconsistency), a bubble-free asynchronous pipeline method that bounds forward/backward version drift without weight stashing, prediction, additional parameter copies, or global synchronization. The key idea is to use local gradient accumulation as a version-control mechanism: by slowing parameter-version evolution relative to pipeline delay, PACI limits the number of optimizer updates crossed by any micro-batch while preserving steady-state utilization. In GPT-style language-model pretraining, PACI matches the stability and final perplexity of synchronous 1F1B-flush, retains the same peak memory footprint, achieves fully utilized pipeline throughput, and improves training time-to-accuracy by up to 1.69times over the fastest flush baseline. These results show that forward/backward inconsistency need not be eliminated: when explicitly bounded, it can be safely traded for substantial efficiency gains.