Comunicación Punto a Punto RDMA para Sistemas de Modelos de Lenguaje Grandes
RDMA Point-to-Point Communication for LLM Systems
October 31, 2025
Autores: Nandor Licker, Kevin Hu, Vladimir Zaytsev, Lequn Chen
cs.AI
Resumen
Los patrones emergentes en sistemas de Grandes Modelos de Lenguaje (LLM), como la inferencia desagregada, el enrutamiento Mixture-of-Experts (MoE) y el ajuste fino asíncrono por refuerzo, requieren comunicación punto a punto flexible que va más allá de los colectivos simples. Las implementaciones existentes están vinculadas a Controladores de Interfaz de Red (NIC) específicos, dificultando su integración en motores de inferencia y la portabilidad entre proveedores de hardware. Presentamos TransferEngine, que une la funcionalidad de NICs comunes para exponer una interfaz uniforme. TransferEngine expone operaciones WriteImm unilaterales con una primitiva ImmCounter para notificación de finalización, sin asumir ordenamiento del transporte de red, gestionando transparentemente múltiples NICs por GPU. Demostramos un rendimiento máximo de 400 Gbps tanto en NVIDIA ConnectX-7 como en AWS Elastic Fabric Adapter (EFA). Exhibimos TransferEngine mediante tres sistemas de producción: (1) transferencia de KvCache para inferencia desagregada con escalado dinámico, (2) actualizaciones de pesos de RL que logran 1.3 segundos para modelos de billones de parámetros, y (3) implementación de despacho/combinación MoE que supera la latencia de decodificación de DeepEP en ConnectX-7, con las primeras latencias viables en EFA. Demostramos que nuestra comunicación punto a punto portable complementa los colectivos mientras evita la dependencia tecnológica.
English
Emerging Large Language Model (LLM) system patterns, such as disaggregated
inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement
fine-tuning, require flexible point-to-point communication beyond simple
collectives. Existing implementations are locked to specific Network Interface
Controllers (NICs), hindering integration into inference engines and
portability across hardware providers. We present TransferEngine, which bridges
the functionality of common NICs to expose a uniform interface. TransferEngine
exposes one-sided WriteImm operations with a ImmCounter primitive for
completion notification, without ordering assumptions of network transport,
transparently managing multiple NICs per GPU. We demonstrate peak throughput of
400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We
showcase TransferEngine through three production systems: (1) KvCache transfer
for disaggregated inference with dynamic scaling, (2) RL weight updates
achieving 1.3 seconds for trillion-parameter models, and (3) MoE
dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7,
with the first viable latencies on EFA. We demonstrate that our portable
point-to-point communication complements collectives while avoiding lock-in.