Effizientes Training von Sprachmodellen mit langem Kontext durch Disaggregation der Kern-Attention

papers.abstract

Wir präsentieren Core Attention Disaggregation (CAD), eine Technik, die das Training von Large Language Models mit langen Kontexten verbessert, indem die Kernberechnung der Attention, softmax(QK^T)V, vom Rest des Modells entkoppelt und auf einem separaten Pool von Geräten ausgeführt wird. In bestehenden Systemen ist die Kern-Attention mit anderen Schichten zusammengefasst; bei langen Kontextlängen führt ihr quadratischer Rechenaufwand im Vergleich zum nahezu linearen Wachstum anderer Komponenten zu Lastungleichgewichten und Verzögerungen in Daten- und Pipeline-Parallelgruppen. CAD wird durch zwei Beobachtungen ermöglicht. Erstens ist die Kern-Attention zustandslos: Sie hat keine trainierbaren Parameter und nur minimale temporäre Daten, sodass die Lastverteilung auf die Planung rechenintensiver Aufgaben reduziert wird. Zweitens ist sie komponierbar: Moderne Attention-Kernel behalten eine hohe Effizienz bei der Verarbeitung von fusionierten Batches von Token-Level-Shards mit beliebigen Längen. CAD unterteilt die Kern-Attention in Token-Level-Aufgaben und verteilt sie auf dedizierte Attention-Server, die Aufgaben dynamisch neu bündeln, um die Rechenlast auszugleichen, ohne die Kernel-Effizienz zu beeinträchtigen. Wir implementieren CAD in einem System namens DistCA, das ein Ping-Pong-Ausführungsschema verwendet, um die Kommunikation vollständig mit der Berechnung zu überlappen, und In-Place-Ausführung auf Attention-Servern, um den Speicherverbrauch zu reduzieren. Auf 512 H200 GPUs und Kontextlängen von bis zu 512k Tokens verbessert DistCA den end-to-end Trainingsdurchsatz um bis zu 1,35x, eliminiert Verzögerungen in Daten- und Pipeline-Parallelgruppen und erreicht eine nahezu perfekte Rechen- und Speicherbalance.

English

We present core attention disaggregation (CAD), a technique that improves long-context large language model training by decoupling the core attention computation, softmax(QK^T)V, from the rest of the model and executing it on a separate pool of devices. In existing systems, core attention is colocated with other layers; at long context lengths, its quadratic compute growth compared to the near-linear growth of other components causes load imbalance and stragglers across data and pipeline parallel groups. CAD is enabled by two observations. First, core attention is stateless: it has no trainable parameters and only minimal transient data, so balancing reduces to scheduling compute-bound tasks. Second, it is composable: modern attention kernels retain high efficiency when processing fused batches of token-level shards with arbitrary lengths. CAD partitions core attention into token-level tasks and dispatches them to dedicated attention servers, which dynamically rebatch tasks to equalize compute without sacrificing kernel efficiency. We implement CAD in a system called DistCA, which uses a ping-pong execution scheme to fully overlap communication with computation and in-place execution on attention servers to reduce memory use. On 512 H200 GPUs and context lengths up to 512k tokens, DistCA improves end-to-end training throughput by up to 1.35x, eliminates data and pipeline parallel stragglers, and achieves near-perfect compute and memory balance.

Effizientes Training von Sprachmodellen mit langem Kontext durch Disaggregation der Kern-Attention

Efficient Long-context Language Model Training by Core Attention Disaggregation

papers.abstract

Support