ChatPaper.aiChatPaper

LLM 시스템을 위한 RDMA 점대점 통신

RDMA Point-to-Point Communication for LLM Systems

October 31, 2025
저자: Nandor Licker, Kevin Hu, Vladimir Zaytsev, Lequn Chen
cs.AI

초록

분할 추론, 전문가 혼합(MoE) 라우팅, 비동기 강화 학습 미세 조정 등과 같은 대규모 언어 모델(LLM) 시스템의 새로운 패턴들은 단순한 집합 통신을 넘어선 유연한 지점 간(point-to-point) 통신을 요구합니다. 기존 구현체들은 특정 네트워크 인터페이스 컨트롤러(NIC)에 종속되어 있어 추론 엔진으로의 통합과 하드웨어 공급자 간 이식성을 저해하고 있습니다. 본 논문에서는 일반적인 NIC들의 기능을 연결하여 균일한 인터페이스를 제공하는 TransferEngine을 제안합니다. TransferEngine은 네트워크 전송의 순서 가정 없이 완료 알림을 위한 ImmCounter 프리미티브를 갖춘 일방향 쓰기(WriteImm) 연산을 제공하며, GPU당 여러 NIC를 투명하게 관리합니다. NVIDIA ConnectX-7과 AWS EFA(Elastic Fabric Adapter) 양측에서 400Gbps의 최대 처리량을 입증했습니다. 우리는 TransferEngine의 효용을 세 가지 프로덕션 시스템을 통해 보여줍니다: (1) 동적 확장을 통한 분할 추론을 위한 KvCache 전송, (2) 조개 파라미터 모델 기준 1.3초에 달하는 RL 가중치 업데이트, (3) ConnectX-7에서 DeepEP 디코딩 지연 시간을 능가하고 EFA에서 최초로 실용적인 지연 시간을 달성한 MoE 디스패치/결합 구현. 우리는 이식 가능한 지점 간 통신이 벤더 종속성을 피하면서 집합 통신을 보완함을 입증합니다.
English
Emerging Large Language Model (LLM) system patterns, such as disaggregated inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement fine-tuning, require flexible point-to-point communication beyond simple collectives. Existing implementations are locked to specific Network Interface Controllers (NICs), hindering integration into inference engines and portability across hardware providers. We present TransferEngine, which bridges the functionality of common NICs to expose a uniform interface. TransferEngine exposes one-sided WriteImm operations with a ImmCounter primitive for completion notification, without ordering assumptions of network transport, transparently managing multiple NICs per GPU. We demonstrate peak throughput of 400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We showcase TransferEngine through three production systems: (1) KvCache transfer for disaggregated inference with dynamic scaling, (2) RL weight updates achieving 1.3 seconds for trillion-parameter models, and (3) MoE dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7, with the first viable latencies on EFA. We demonstrate that our portable point-to-point communication complements collectives while avoiding lock-in.
PDF62December 2, 2025