DualPath: Преодоление узкого места пропускной способности хранилища в агентном выводе LLM

Аннотация

Производительность многошагового инференса агентных больших языковых моделей все больше определяется операциями ввода-вывода с KV-кэшем, а не вычислениями. В распространенных дис-агрегированных архитектурах загрузка огромного KV-кэша из внешнего хранилища создает фундаментальный дисбаланс: сетевые карты хранилища на движках префилла насыщаются по пропускной способности, в то время как на движках декодирования они простаивают. Эта асимметрия серьезно ограничивает общую пропускную способность системы. Мы представляем DualPath, систему инференса, которая устраняет это узкое место за счет введения двухпутевой загрузки KV-кэша. В дополнение к традиционному пути "хранилище-префилл", DualPath реализует новый путь "хранилище-декодер", при котором KV-кэш загружается в движки декодирования, а затем эффективно передается на движки префилла через RDMA по вычислительной сети. DualPath сочетает этот оптимизированный путь передачи данных — который по своей сути избегает сетевой перегрузки и не мешает задержко-критичным коммуникациям выполнения модели — с глобальным планировщиком, который динамически балансирует нагрузку между движками префилла и декодирования. Наша оценка на трех моделях с рабочими агентными нагрузками показывает, что DualPath повышает пропускную способность офлайн-инференса до 1.87 раз в нашей внутренней системе. Она также может повысить пропускную способность онлайн-обслуживания в среднем в 1.96 раз без нарушения SLA.

English

The performance of multi-turn, agentic LLM inference is increasingly dominated by KV-Cache storage I/O rather than computation. In prevalent disaggregated architectures, loading the massive KV-Cache from external storage creates a fundamental imbalance: storage NICs on prefill engines become bandwidth-saturated, while those on decoding engines remain idle. This asymmetry severely constrains overall system throughput. We present DualPath, an inference system that breaks this bottleneck by introducing dual-path KV-Cache loading. Beyond the traditional storage-to-prefill path, DualPath enables a novel storage-to-decode path, in which the KV-Cache is loaded into decoding engines and then efficiently transferred to prefill engines via RDMA over the compute network. DualPath combines this optimized data path -- which inherently avoids network congestion and avoids interference with latency-critical model execution communications -- with a global scheduler that dynamically balances load across prefill and decode engines. Our evaluation on three models with production agentic workloads demonstrates that DualPath improves offline inference throughput by up to 1.87times on our in-house inference system. It can also improve online serving throughput by an average factor of 1.96times without violating SLO.

DualPath: Преодоление узкого места пропускной способности хранилища в агентном выводе LLM

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Аннотация

Support