RDMA Punt-tot-Punt Communicatie voor LLM-systemen

Samenvatting

Opkomende systeempatronen voor Large Language Models (LLM's), zoals gedisaggregeerde inferentie, Mixture-of-Experts (MoE)-routering en asynchrone reinforcement fine-tuning, vereisen flexibele point-to-point communicatie die verder gaat dan eenvoudige collectieve operaties. Bestaande implementaties zijn gekoppeld aan specifieke netwerkinterfacecontrollers (NIC's), wat integratie in inferentie-engines en portabiliteit tussen hardwareleveranciers belemmert. Wij presenteren TransferEngine, dat de functionaliteit van gangbare NIC's overbrugt om een uniforme interface bloot te leggen. TransferEngine biedt one-sided WriteImm-operaties met een ImmCounter-primitief voor voltooiingsmelding, zonder ordeningsaannames van netwerktransport, en beheert transparant meerdere NIC's per GPU. We demonstreren een piekdoorvoer van 400 Gbps op zowel NVIDIA ConnectX-7 als AWS Elastic Fabric Adapter (EFA). We tonen TransferEngine aan de hand van drie productiesystemen: (1) KvCache-overdracht voor gedisaggregeerde inferentie met dynamische schaling, (2) RL-gewichtupdates die 1,3 seconden bereiken voor modellen met een biljoen parameters, en (3) een MoE dispatch/combine-implementatie die de DeepEP-decodeerlatentie op ConnectX-7 overtreft, met de eerste haalbare latenties op EFA. We tonen aan dat onze draagbare point-to-point communicatie collectieve operaties aanvult terwijl vendor lock-in wordt vermeden.

English

Emerging Large Language Model (LLM) system patterns, such as disaggregated inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement fine-tuning, require flexible point-to-point communication beyond simple collectives. Existing implementations are locked to specific Network Interface Controllers (NICs), hindering integration into inference engines and portability across hardware providers. We present TransferEngine, which bridges the functionality of common NICs to expose a uniform interface. TransferEngine exposes one-sided WriteImm operations with a ImmCounter primitive for completion notification, without ordering assumptions of network transport, transparently managing multiple NICs per GPU. We demonstrate peak throughput of 400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We showcase TransferEngine through three production systems: (1) KvCache transfer for disaggregated inference with dynamic scaling, (2) RL weight updates achieving 1.3 seconds for trillion-parameter models, and (3) MoE dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7, with the first viable latencies on EFA. We demonstrate that our portable point-to-point communication complements collectives while avoiding lock-in.

RDMA Punt-tot-Punt Communicatie voor LLM-systemen

RDMA Point-to-Point Communication for LLM Systems

Samenvatting

Support