RDMA-Punkt-zu-Punkt-Kommunikation für LLM-Systeme

papers.abstract

Aufkommende Systemmuster für große Sprachmodelle (LLM), wie disaggregiertes Inferenz-Computing, Mixture-of-Experts (MoE)-Routing und asynchrones Reinforcement-Fine-Tuning, erfordern eine flexible Punkt-zu-Punkt-Kommunikation, die über einfache Kollektivoperationen hinausgeht. Bestehende Implementierungen sind an spezifische Netzwerkschnittstellenkarten (NICs) gebunden, was die Integration in Inferenz-Engines und die Portabilität zwischen Hardware-Anbietern behindert. Wir stellen TransferEngine vor, das die Funktionalität gängiger NICs bündelt, um eine einheitliche Schnittstelle bereitzustellen. TransferEngine bietet one-sided WriteImm-Operationen mit einem ImmCounter-Primitiv zur Benachrichtigung über den Abschluss, ohne Reihenfolgeannahmen des Netzwerktransports, und verwaltet transparent mehrere NICs pro GPU. Wir demonstrieren einen Spitzendurchsatz von 400 Gbps auf sowohl NVIDIA ConnectX-7 als auch AWS Elastic Fabric Adapter (EFA). Wir präsentieren TransferEngine anhand dreier Produktionssysteme: (1) KvCache-Transfer für disaggregiertes Inferenz-Computing mit dynamischer Skalierung, (2) RL-Gewichtsaktualisierungen, die 1,3 Sekunden für Modelle mit Billionen Parametern erreichen, und (3) eine MoE-Dispatch/Combine-Implementierung, die die Decode-Latenz von DeepEP auf ConnectX-7 übertrifft und die ersten praktikablen Latenzzeiten auf EFA erreicht. Wir zeigen, dass unsere portable Punkt-zu-Punkt-Kommunikation Kollektivoperationen ergänzt und gleichzeitig Vendor-Lock-in vermeidet.

English

Emerging Large Language Model (LLM) system patterns, such as disaggregated inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement fine-tuning, require flexible point-to-point communication beyond simple collectives. Existing implementations are locked to specific Network Interface Controllers (NICs), hindering integration into inference engines and portability across hardware providers. We present TransferEngine, which bridges the functionality of common NICs to expose a uniform interface. TransferEngine exposes one-sided WriteImm operations with a ImmCounter primitive for completion notification, without ordering assumptions of network transport, transparently managing multiple NICs per GPU. We demonstrate peak throughput of 400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We showcase TransferEngine through three production systems: (1) KvCache transfer for disaggregated inference with dynamic scaling, (2) RL weight updates achieving 1.3 seconds for trillion-parameter models, and (3) MoE dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7, with the first viable latencies on EFA. We demonstrate that our portable point-to-point communication complements collectives while avoiding lock-in.

RDMA-Punkt-zu-Punkt-Kommunikation für LLM-Systeme

RDMA Point-to-Point Communication for LLM Systems

papers.abstract

Support