Точечная коммуникация RDMA для систем LLM

Аннотация

Возникающие паттерны систем больших языковых моделей (LLM), такие как распределенный вывод, маршрутизация по методу смеси экспертов (MoE) и асинхронная тонкая настройка с подкреплением, требуют гибкой связи типа "точка-точка", выходящей за рамки простых коллективных операций. Существующие реализации привязаны к конкретным сетевым контроллерам (NIC), что затрудняет их интеграцию в механизмы вывода и переносимость между поставщиками оборудования. Мы представляем TransferEngine, который объединяет функциональность распространенных NIC, предоставляя единый интерфейс. TransferEngine поддерживает односторонние операции WriteImm с примитивом ImmCounter для уведомления о завершении, без предположений о порядке доставки в сети, и прозрачно управляет несколькими NIC на один GPU. Мы демонстрируем пиковую пропускную способность в 400 Гбит/с как на NVIDIA ConnectX-7, так и на AWS Elastic Fabric Adapter (EFA). Мы показываем работу TransferEngine на примере трех производственных систем: (1) передача KvCache для распределенного вывода с динамическим масштабированием, (2) обновления весов при обучении с подкреплением, достигающие 1,3 секунды для моделей с триллионом параметров, и (3) реализация распределения/агрегации для MoE, превосходящая задержку декодирования DeepEP на ConnectX-7 и впервые обеспечивающая приемлемую задержку на EFA. Мы демонстрируем, что наша переносимая связь "точка-точка" дополняет коллективные операции, избегая привязки к конкретному решению.

English

Emerging Large Language Model (LLM) system patterns, such as disaggregated inference, Mixture-of-Experts (MoE) routing, and asynchronous reinforcement fine-tuning, require flexible point-to-point communication beyond simple collectives. Existing implementations are locked to specific Network Interface Controllers (NICs), hindering integration into inference engines and portability across hardware providers. We present TransferEngine, which bridges the functionality of common NICs to expose a uniform interface. TransferEngine exposes one-sided WriteImm operations with a ImmCounter primitive for completion notification, without ordering assumptions of network transport, transparently managing multiple NICs per GPU. We demonstrate peak throughput of 400 Gbps on both NVIDIA ConnectX-7 and AWS Elastic Fabric Adapter (EFA). We showcase TransferEngine through three production systems: (1) KvCache transfer for disaggregated inference with dynamic scaling, (2) RL weight updates achieving 1.3 seconds for trillion-parameter models, and (3) MoE dispatch/combine implementation exceeding DeepEP decode latency on ConnectX-7, with the first viable latencies on EFA. We demonstrate that our portable point-to-point communication complements collectives while avoiding lock-in.

Точечная коммуникация RDMA для систем LLM

RDMA Point-to-Point Communication for LLM Systems

Аннотация

Support