ZeCO : Parallélisme de séquence sans surcharge de communication pour l'attention linéaire

Résumé

Les mécanismes d'attention linéaire offrent des avantages significatifs pour les grands modèles de langage (LLMs) en fournissant une complexité computationnelle linéaire, permettant un traitement efficace de séquences ultra-longues (par exemple, un contexte de 1 million). Cependant, les méthodes existantes de parallélisme de séquence (SP), essentielles pour répartir ces charges de travail sur plusieurs dispositifs, deviennent le principal goulot d'étranglement en raison d'un surcoût de communication substantiel. Dans cet article, nous présentons ZeCO (Zero Communication Overhead) pour les modèles d'attention linéaire, une nouvelle méthode de SP conçue pour surmonter ces limitations et atteindre une scalabilité quasi-linéaire de bout en bout pour l'entraînement de longues séquences. Par exemple, entraîner un modèle avec une séquence de 1 million sur 64 dispositifs en utilisant ZeCO prend à peu près le même temps qu'un entraînement avec une séquence de 16 000 sur un seul dispositif. Au cœur de ZeCO se trouve All-Scan, une nouvelle primitive de communication collective. All-Scan fournit à chaque rang SP exactement l'état initial de l'opérateur dont il a besoin tout en maintenant une empreinte de communication minimale, éliminant ainsi efficacement le surcoût de communication. Théoriquement, nous prouvons l'optimalité de ZeCO, montrant qu'il introduit seulement un surcoût temporel et spatial négligeable. Empiriquement, nous comparons les coûts de communication de différentes stratégies de parallélisme de séquence et démontrons qu'All-Scan réalise la communication la plus rapide dans les scénarios de SP. Plus précisément, sur 256 GPU avec une séquence de 8 millions, ZeCO atteint une accélération de 60 % par rapport à la méthode de SP actuellement la plus avancée (SOTA). Nous croyons que ZeCO établit une voie claire vers l'entraînement efficace des LLMs de nouvelle génération sur des longueurs de séquences auparavant inaccessibles.

English

Linear attention mechanisms deliver significant advantages for Large Language Models (LLMs) by providing linear computational complexity, enabling efficient processing of ultra-long sequences (e.g., 1M context). However, existing Sequence Parallelism (SP) methods, essential for distributing these workloads across devices, become the primary bottleneck due to substantial communication overhead. In this paper, we introduce ZeCO (Zero Communication Overhead) sequence parallelism for linear attention models, a new SP method designed to overcome these limitations and achieve end-to-end near-linear scalability for long sequence training. For example, training a model with a 1M sequence length across 64 devices using ZeCO takes roughly the same time as training with an 16k sequence on a single device. At the heart of ZeCO lies All-Scan, a new collective communication primitive. All-Scan provides each SP rank with precisely the initial operator state it requires while maintaining a minimal communication footprint, effectively eliminating communication overhead. Theoretically, we prove the optimaity of ZeCO, showing that it introduces only negligible time and space overhead. Empirically, we compare the communication costs of different sequence parallelism strategies and demonstrate that All-Scan achieves the fastest communication in SP scenarios. Specifically, on 256 GPUs with an 8M sequence length, ZeCO achieves a 60\% speedup compared to the current state-of-the-art (SOTA) SP method. We believe ZeCO establishes a clear path toward efficiently training next-generation LLMs on previously intractable sequence lengths.

ZeCO : Parallélisme de séquence sans surcharge de communication pour l'attention linéaire

ZeCO: Zero Communication Overhead Sequence Parallelism for Linear Attention

Résumé

Support