Comunicação RDMA Ponto a Ponto para Sistemas de LLM
RDMA Point-to-Point Communication for LLM Systems
October 31, 2025
Autores: Nandor Licker, Kevin Hu, Vladimir Zaytsev, Lequn Chen
cs.AI
Resumo
Padrões emergentes de sistemas de Grandes Modelos de Linguagem (LLMs), como inferência desagregada, roteamento de Mistura de Especialistas (MoE) e ajuste fino assíncrono por reforço, exigem comunicação ponto a ponto flexível que vai além de operações coletivas simples. As implementações existentes estão vinculadas a Controladores de Interface de Rede (NICs) específicos, dificultando a integração em motores de inferência e a portabilidade entre fornecedores de hardware. Apresentamos o TransferEngine, que conecta a funcionalidade de NICs comuns para expor uma interface uniforme. O TransferEngine expõe operações unilaterais WriteImm com um primitivo ImmCounter para notificação de conclusão, sem pressupostos de ordenação do transporte de rede, gerenciando de forma transparente múltiplos NICs por GPU. Demonstramos um pico de taxa de transferência de 400 Gbps tanto no NVIDIA ConnectX-7 quanto no Adaptador de Malha Elástica (EFA) da AWS. Ilustramos o TransferEngine por meio de três sistemas de produção: (1) transferência de KvCache para inferência desagregada com dimensionamento dinâmico, (2) atualizações de pesos por RL atingindo 1,3 segundos para modelos de trilhões de parâmetros, e (3) implementação de despacho/combinação de MoE que supera a latência de decodificação do DeepEP no ConnectX-7, com as primeiras latências viáveis no EFA. Demonstramos que nossa comunicação ponto a ponto portável complementa as operações coletivas enquanto evita o aprisionamento a fornecedores.
English
Emerging Large Language Model (LLM) system patterns, such as disaggregated
inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement
fine-tuning, require flexible point-to-point communication beyond simple
collectives. Existing implementations are locked to specific Network Interface
Controllers (NICs), hindering integration into inference engines and
portability across hardware providers. We present TransferEngine, which bridges
the functionality of common NICs to expose a uniform interface. TransferEngine
exposes one-sided WriteImm operations with a ImmCounter primitive for
completion notification, without ordering assumptions of network transport,
transparently managing multiple NICs per GPU. We demonstrate peak throughput of
400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We
showcase TransferEngine through three production systems: (1) KvCache transfer
for disaggregated inference with dynamic scaling, (2) RL weight updates
achieving 1.3 seconds for trillion-parameter models, and (3) MoE
dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7,
with the first viable latencies on EFA. We demonstrate that our portable
point-to-point communication complements collectives while avoiding lock-in.