Comunicazione Point-to-Point RDMA per Sistemi LLM

Abstract

I modelli di sistema emergenti per i Large Language Model (LLM), come l'inferenza disaggregata, il routing Mixture-of-Experts (MoE) e il fine-tuning asincrono per rinforzo, richiedono una comunicazione punto-a-punto flessibile che va oltre i semplici collettivi. Le implementazioni esistenti sono vincolate a specifici Network Interface Controller (NIC), ostacolando l'integrazione nei motori di inferenza e la portabilità tra diversi fornitori di hardware. Presentiamo TransferEngine, che collega la funzionalità dei NIC comuni per esporre un'interfaccia uniforme. TransferEngine espone operazioni WriteImm unilaterali con un primitivo ImmCounter per la notifica del completamento, senza assunzioni di ordinamento del trasporto di rete, gestendo in modo trasparente più NIC per GPU. Dimostriamo una velocità di picco di 400 Gbps sia su NVIDIA ConnectX-7 che su AWS Elastic Fabric Adapter (EFA). Mostriamo TransferEngine attraverso tre sistemi di produzione: (1) trasferimento della KvCache per inferenza disaggregata con scalabilità dinamica, (2) aggiornamenti dei pesi per RL che raggiungono 1,3 secondi per modelli con trilioni di parametri, e (3) un'implementazione di dispatch/combine per MoE che supera la latenza di decodifica di DeepEP su ConnectX-7, con le prime latenze pratiche su EFA. Dimostriamo che la nostra comunicazione punto-a-punto portabile complementa i collettivi evitando al contempo il vendor lock-in.

English

Emerging Large Language Model (LLM) system patterns, such as disaggregated inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement fine-tuning, require flexible point-to-point communication beyond simple collectives. Existing implementations are locked to specific Network Interface Controllers (NICs), hindering integration into inference engines and portability across hardware providers. We present TransferEngine, which bridges the functionality of common NICs to expose a uniform interface. TransferEngine exposes one-sided WriteImm operations with a ImmCounter primitive for completion notification, without ordering assumptions of network transport, transparently managing multiple NICs per GPU. We demonstrate peak throughput of 400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We showcase TransferEngine through three production systems: (1) KvCache transfer for disaggregated inference with dynamic scaling, (2) RL weight updates achieving 1.3 seconds for trillion-parameter models, and (3) MoE dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7, with the first viable latencies on EFA. We demonstrate that our portable point-to-point communication complements collectives while avoiding lock-in.

Comunicazione Point-to-Point RDMA per Sistemi LLM

RDMA Point-to-Point Communication for LLM Systems

Abstract

Support