ZeCO: Paralelismo de Secuencias con Cero Sobrecarga de Comunicación para Atención Lineal

Resumen

Los mecanismos de atención lineal ofrecen ventajas significativas para los Modelos de Lenguaje a Gran Escala (LLMs) al proporcionar una complejidad computacional lineal, permitiendo el procesamiento eficiente de secuencias ultra largas (por ejemplo, 1 millón de tokens de contexto). Sin embargo, los métodos existentes de Paralelismo de Secuencias (SP, por sus siglas en inglés), esenciales para distribuir estas cargas de trabajo entre dispositivos, se convierten en el principal cuello de botella debido a un sobrecarga sustancial de comunicación. En este artículo, presentamos ZeCO (Zero Communication Overhead) para paralelismo de secuencias en modelos de atención lineal, un nuevo método SP diseñado para superar estas limitaciones y lograr una escalabilidad casi lineal de extremo a extremo en el entrenamiento de secuencias largas. Por ejemplo, entrenar un modelo con una secuencia de 1 millón de tokens en 64 dispositivos utilizando ZeCO toma aproximadamente el mismo tiempo que entrenar con una secuencia de 16k tokens en un solo dispositivo. En el núcleo de ZeCO se encuentra All-Scan, una nueva primitiva de comunicación colectiva. All-Scan proporciona a cada rango de SP exactamente el estado inicial del operador que requiere, manteniendo una huella de comunicación mínima, eliminando efectivamente la sobrecarga de comunicación. Teóricamente, demostramos la optimalidad de ZeCO, mostrando que introduce solo un tiempo y espacio adicional insignificante. Empíricamente, comparamos los costos de comunicación de diferentes estrategias de paralelismo de secuencias y demostramos que All-Scan logra la comunicación más rápida en escenarios de SP. Específicamente, en 256 GPUs con una secuencia de 8 millones de tokens, ZeCO logra una aceleración del 60\% en comparación con el método SP más avanzado actual (SOTA). Creemos que ZeCO establece un camino claro hacia el entrenamiento eficiente de la próxima generación de LLMs en longitudes de secuencia previamente intratables.

English

Linear attention mechanisms deliver significant advantages for Large Language Models (LLMs) by providing linear computational complexity, enabling efficient processing of ultra-long sequences (e.g., 1M context). However, existing Sequence Parallelism (SP) methods, essential for distributing these workloads across devices, become the primary bottleneck due to substantial communication overhead. In this paper, we introduce ZeCO (Zero Communication Overhead) sequence parallelism for linear attention models, a new SP method designed to overcome these limitations and achieve end-to-end near-linear scalability for long sequence training. For example, training a model with a 1M sequence length across 64 devices using ZeCO takes roughly the same time as training with an 16k sequence on a single device. At the heart of ZeCO lies All-Scan, a new collective communication primitive. All-Scan provides each SP rank with precisely the initial operator state it requires while maintaining a minimal communication footprint, effectively eliminating communication overhead. Theoretically, we prove the optimaity of ZeCO, showing that it introduces only negligible time and space overhead. Empirically, we compare the communication costs of different sequence parallelism strategies and demonstrate that All-Scan achieves the fastest communication in SP scenarios. Specifically, on 256 GPUs with an 8M sequence length, ZeCO achieves a 60\% speedup compared to the current state-of-the-art (SOTA) SP method. We believe ZeCO establishes a clear path toward efficiently training next-generation LLMs on previously intractable sequence lengths.

ZeCO: Paralelismo de Secuencias con Cero Sobrecarga de Comunicación para Atención Lineal

ZeCO: Zero Communication Overhead Sequence Parallelism for Linear Attention

Resumen

Support