Comunicação RDMA Ponto a Ponto para Sistemas de LLM

Resumo

Padrões emergentes de sistemas de Grandes Modelos de Linguagem (LLMs), como inferência desagregada, roteamento de Mistura de Especialistas (MoE) e ajuste fino assíncrono por reforço, exigem comunicação ponto a ponto flexível que vai além de operações coletivas simples. As implementações existentes estão vinculadas a Controladores de Interface de Rede (NICs) específicos, dificultando a integração em motores de inferência e a portabilidade entre fornecedores de hardware. Apresentamos o TransferEngine, que conecta a funcionalidade de NICs comuns para expor uma interface uniforme. O TransferEngine expõe operações unilaterais WriteImm com um primitivo ImmCounter para notificação de conclusão, sem pressupostos de ordenação do transporte de rede, gerenciando de forma transparente múltiplos NICs por GPU. Demonstramos um pico de taxa de transferência de 400 Gbps tanto no NVIDIA ConnectX-7 quanto no Adaptador de Malha Elástica (EFA) da AWS. Ilustramos o TransferEngine por meio de três sistemas de produção: (1) transferência de KvCache para inferência desagregada com dimensionamento dinâmico, (2) atualizações de pesos por RL atingindo 1,3 segundos para modelos de trilhões de parâmetros, e (3) implementação de despacho/combinação de MoE que supera a latência de decodificação do DeepEP no ConnectX-7, com as primeiras latências viáveis no EFA. Demonstramos que nossa comunicação ponto a ponto portável complementa as operações coletivas enquanto evita o aprisionamento a fornecedores.

English

Emerging Large Language Model (LLM) system patterns, such as disaggregated inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement fine-tuning, require flexible point-to-point communication beyond simple collectives. Existing implementations are locked to specific Network Interface Controllers (NICs), hindering integration into inference engines and portability across hardware providers. We present TransferEngine, which bridges the functionality of common NICs to expose a uniform interface. TransferEngine exposes one-sided WriteImm operations with a ImmCounter primitive for completion notification, without ordering assumptions of network transport, transparently managing multiple NICs per GPU. We demonstrate peak throughput of 400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We showcase TransferEngine through three production systems: (1) KvCache transfer for disaggregated inference with dynamic scaling, (2) RL weight updates achieving 1.3 seconds for trillion-parameter models, and (3) MoE dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7, with the first viable latencies on EFA. We demonstrate that our portable point-to-point communication complements collectives while avoiding lock-in.

Comunicação RDMA Ponto a Ponto para Sistemas de LLM

RDMA Point-to-Point Communication for LLM Systems

Resumo

Support