Communication Point-à-Point RDMA pour les Systèmes de LLM
RDMA Point-to-Point Communication for LLM Systems
October 31, 2025
papers.authors: Nandor Licker, Kevin Hu, Vladimir Zaytsev, Lequn Chen
cs.AI
papers.abstract
Les modèles émergents de systèmes de grands modèles de langage (LLM), tels que l'inférence désagrégée, le routage par mélange d'experts (MoE) et le réglage fin asynchrone par renforcement, nécessitent une communication point-à-point flexible au-delà des simples collectives. Les implémentations existantes sont verrouillées à des contrôleurs d'interface réseau (NIC) spécifiques, entravant l'intégration dans les moteurs d'inférence et la portabilité entre les fournisseurs de matériel. Nous présentons TransferEngine, qui connecte les fonctionnalités des NIC courants pour exposer une interface uniforme. TransferEngine expose des opérations WriteImm unilatérales avec une primitive ImmCounter pour la notification d'achèvement, sans hypothèses d'ordonnancement du transport réseau, en gérant de manière transparente plusieurs NIC par GPU. Nous démontrons un débit maximal de 400 Gbps sur NVIDIA ConnectX-7 et sur l'adaptateur de tissu élastique (EFA) d'AWS. Nous présentons TransferEngine via trois systèmes de production : (1) le transfert de KvCache pour une inférence désagrégée avec mise à l'échelle dynamique, (2) des mises à jour de poids par RL atteignant 1,3 seconde pour des modèles à billions de paramètres, et (3) une implémentation de dispatch/combinaison MoE dépassant la latence de décodage de DeepEP sur ConnectX-7, avec les premières latences viables sur EFA. Nous démontrons que notre communication point-à-point portable complète les collectives tout en évitant le verrouillage.
English
Emerging Large Language Model (LLM) system patterns, such as disaggregated
inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement
fine-tuning, require flexible point-to-point communication beyond simple
collectives. Existing implementations are locked to specific Network Interface
Controllers (NICs), hindering integration into inference engines and
portability across hardware providers. We present TransferEngine, which bridges
the functionality of common NICs to expose a uniform interface. TransferEngine
exposes one-sided WriteImm operations with a ImmCounter primitive for
completion notification, without ordering assumptions of network transport,
transparently managing multiple NICs per GPU. We demonstrate peak throughput of
400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We
showcase TransferEngine through three production systems: (1) KvCache transfer
for disaggregated inference with dynamic scaling, (2) RL weight updates
achieving 1.3 seconds for trillion-parameter models, and (3) MoE
dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7,
with the first viable latencies on EFA. We demonstrate that our portable
point-to-point communication complements collectives while avoiding lock-in.