Communication Point-à-Point RDMA pour les Systèmes de LLM

papers.abstract

Les modèles émergents de systèmes de grands modèles de langage (LLM), tels que l'inférence désagrégée, le routage par mélange d'experts (MoE) et le réglage fin asynchrone par renforcement, nécessitent une communication point-à-point flexible au-delà des simples collectives. Les implémentations existantes sont verrouillées à des contrôleurs d'interface réseau (NIC) spécifiques, entravant l'intégration dans les moteurs d'inférence et la portabilité entre les fournisseurs de matériel. Nous présentons TransferEngine, qui connecte les fonctionnalités des NIC courants pour exposer une interface uniforme. TransferEngine expose des opérations WriteImm unilatérales avec une primitive ImmCounter pour la notification d'achèvement, sans hypothèses d'ordonnancement du transport réseau, en gérant de manière transparente plusieurs NIC par GPU. Nous démontrons un débit maximal de 400 Gbps sur NVIDIA ConnectX-7 et sur l'adaptateur de tissu élastique (EFA) d'AWS. Nous présentons TransferEngine via trois systèmes de production : (1) le transfert de KvCache pour une inférence désagrégée avec mise à l'échelle dynamique, (2) des mises à jour de poids par RL atteignant 1,3 seconde pour des modèles à billions de paramètres, et (3) une implémentation de dispatch/combinaison MoE dépassant la latence de décodage de DeepEP sur ConnectX-7, avec les premières latences viables sur EFA. Nous démontrons que notre communication point-à-point portable complète les collectives tout en évitant le verrouillage.

English

Emerging Large Language Model (LLM) system patterns, such as disaggregated inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement fine-tuning, require flexible point-to-point communication beyond simple collectives. Existing implementations are locked to specific Network Interface Controllers (NICs), hindering integration into inference engines and portability across hardware providers. We present TransferEngine, which bridges the functionality of common NICs to expose a uniform interface. TransferEngine exposes one-sided WriteImm operations with a ImmCounter primitive for completion notification, without ordering assumptions of network transport, transparently managing multiple NICs per GPU. We demonstrate peak throughput of 400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We showcase TransferEngine through three production systems: (1) KvCache transfer for disaggregated inference with dynamic scaling, (2) RL weight updates achieving 1.3 seconds for trillion-parameter models, and (3) MoE dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7, with the first viable latencies on EFA. We demonstrate that our portable point-to-point communication complements collectives while avoiding lock-in.

Communication Point-à-Point RDMA pour les Systèmes de LLM

RDMA Point-to-Point Communication for LLM Systems

papers.abstract

Support