大規模言語モデルシステムにおけるRDMAポイントツーポイント通信
RDMA Point-to-Point Communication for LLM Systems
October 31, 2025
著者: Nandor Licker, Kevin Hu, Vladimir Zaytsev, Lequn Chen
cs.AI
要旨
大規模言語モデル(LLM)システムの新興パターンである、分散推論、Mixture-of-Experts(MoE)ルーティング、非同期強化学習ファインチューニングなどは、単純な集団通信を超えた柔軟なポイントツーポイント通信を必要とする。既存の実装は特定のネットワークインターフェースコントローラ(NIC)に依存しており、推論エンジンへの統合やハードウェアプロバイダー間での移植性が妨げられている。本研究では、一般的なNICの機能を橋渡しし、統一インターフェースを提供するTransferEngineを提案する。TransferEngineは、完了通知のためのImmCounterプリミティブを伴う一方向WriteImm操作を、ネットワーク転送の順序保証を仮定せずに提供し、GPUごとに複数のNICを透過的に管理する。NVIDIA ConnectX-7およびAWS Elastic Fabric Adapter(EFA)の両方で400 Gbpsのピークスループットを実証した。本エンジンを3つの実用システムで検証する:(1)動的スケーリングを伴う分散推論のためのKvCache転送、(2)1.3秒で兆パラメータモデルの更新を実現するRL重み更新、(3)ConnectX-7でDeepEPのデコード遅延を上回り、EFAで初めて実用的な遅延を実現したMoEディスパッチ/結合実装である。我々の移植性の高いポイントツーポイント通信が、ベンダーロックインを回避しつつ集団通信を補完することを示す。
English
Emerging Large Language Model (LLM) system patterns, such as disaggregated
inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement
fine-tuning, require flexible point-to-point communication beyond simple
collectives. Existing implementations are locked to specific Network Interface
Controllers (NICs), hindering integration into inference engines and
portability across hardware providers. We present TransferEngine, which bridges
the functionality of common NICs to expose a uniform interface. TransferEngine
exposes one-sided WriteImm operations with a ImmCounter primitive for
completion notification, without ordering assumptions of network transport,
transparently managing multiple NICs per GPU. We demonstrate peak throughput of
400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We
showcase TransferEngine through three production systems: (1) KvCache transfer
for disaggregated inference with dynamic scaling, (2) RL weight updates
achieving 1.3 seconds for trillion-parameter models, and (3) MoE
dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7,
with the first viable latencies on EFA. We demonstrate that our portable
point-to-point communication complements collectives while avoiding lock-in.