Rompiendo la Burbuja: Entrenamiento Paralelo Asíncrono en Pipeline con Inconsistencia de Pesos Acotada

Resumen

El paralelismo de canalizaciones (pipeline parallelism) es esencial para entrenar grandes redes neuronales, pero los esquemas existentes incurren en compromisos entre rendimiento, memoria y consistencia de la optimización. Las canalizaciones síncronas preservan la consistencia de pesos hacia adelante/atrás pero sufren de burbujas; las canalizaciones asíncronas eliminan las burbujas pero introducen desajustes de versión de pesos, lo que típicamente requiere mecanismos de almacenamiento, predicción o corrección de pesos. Presentamos PACI (Pipeline Asynchronous training with Controlled Inconsistency, o entrenamiento asíncrono de canalizaciones con inconsistencia controlada), un método de canalización asíncrona sin burbujas que acota la deriva de versiones hacia adelante/atrás sin almacenamiento de pesos, predicción, copias adicionales de parámetros ni sincronización global. La idea clave es usar la acumulación local de gradientes como mecanismo de control de versiones: al ralentizar la evolución de la versión de los parámetros en relación con el retardo de la canalización, PACI limita el número de actualizaciones del optimizador que cruza cualquier micro-lote, manteniendo al mismo tiempo la utilización en estado estacionario. En el preentrenamiento de modelos de lenguaje tipo GPT, PACI iguala la estabilidad y la perplejidad final de la canalización síncrona 1F1B-flush, retiene la misma huella de memoria máxima, alcanza un rendimiento de canalización completamente utilizado y mejora el tiempo hasta alcanzar la precisión en hasta 1.69 veces en comparación con la línea base de vaciado más rápida. Estos resultados muestran que la inconsistencia hacia adelante/atrás no necesita ser eliminada: cuando se acota explícitamente, puede intercambiarse de manera segura por ganancias sustanciales de eficiencia.

English

Pipeline parallelism is essential for training large neural networks, but existing schedules trade off throughput, memory, and optimization consistency. Synchronous pipelines preserve forward/backward weight consistency but suffer from bubbles; asynchronous pipelines remove bubbles but introduce weight-version mismatch, typically requiring weight stashing, prediction, or correction mechanisms. We introduce PACI (Pipeline Asynchronous training with Controlled Inconsistency), a bubble-free asynchronous pipeline method that bounds forward/backward version drift without weight stashing, prediction, additional parameter copies, or global synchronization. The key idea is to use local gradient accumulation as a version-control mechanism: by slowing parameter-version evolution relative to pipeline delay, PACI limits the number of optimizer updates crossed by any micro-batch while preserving steady-state utilization. In GPT-style language-model pretraining, PACI matches the stability and final perplexity of synchronous 1F1B-flush, retains the same peak memory footprint, achieves fully utilized pipeline throughput, and improves training time-to-accuracy by up to 1.69times over the fastest flush baseline. These results show that forward/backward inconsistency need not be eliminated: when explicitly bounded, it can be safely traded for substantial efficiency gains.