DualPath: Rompendo o Gargalo de Largura de Banda de Armazenamento na Inferência de LLMs Agentes

Resumo

O desempenho da inferência de LLMs agentivos com múltiplos turnos é cada vez mais dominado pelas operações de I/O do armazenamento da KV-Cache, em vez da computação. Nas arquiteturas desagregadas predominantes, o carregamento da KV-Cache massiva a partir do armazenamento externo cria um desequilíbrio fundamental: os NICs de armazenamento nos motores de preenchimento (prefill) ficam saturados de largura de banda, enquanto os dos motores de decodificação permanecem inativos. Esta assimetria restringe severamente a taxa de transferência (throughput) geral do sistema. Apresentamos o DualPath, um sistema de inferência que quebra este gargalo através da introdução de um carregamento de KV-Cache de caminho duplo. Para além do caminho tradicional de armazenamento-para-preenchimento, o DualPath permite um novo caminho de armazenamento-para-decodificação, no qual a KV-Cache é carregada nos motores de decodificação e depois transferida eficientemente para os motores de preenchimento via RDMA através da rede de computação. O DualPath combina este caminho de dados otimizado – que evita inerentemente a congestão da rede e evita interferências com as comunicações críticas de latência da execução do modelo – com um escalonador global que equilibra dinamicamente a carga entre os motores de preenchimento e decodificação. A nossa avaliação em três modelos com cargas de trabalho agentivas de produção demonstra que o DualPath melhora a taxa de transferência de inferência offline em até 1,87x no nosso sistema de inferência interno. Também pode melhorar a taxa de transferência de serviço online por um fator médio de 1,96x sem violar o SLO.

English

The performance of multi-turn, agentic LLM inference is increasingly dominated by KV-Cache storage I/O rather than computation. In prevalent disaggregated architectures, loading the massive KV-Cache from external storage creates a fundamental imbalance: storage NICs on prefill engines become bandwidth-saturated, while those on decoding engines remain idle. This asymmetry severely constrains overall system throughput. We present DualPath, an inference system that breaks this bottleneck by introducing dual-path KV-Cache loading. Beyond the traditional storage-to-prefill path, DualPath enables a novel storage-to-decode path, in which the KV-Cache is loaded into decoding engines and then efficiently transferred to prefill engines via RDMA over the compute network. DualPath combines this optimized data path -- which inherently avoids network congestion and avoids interference with latency-critical model execution communications -- with a global scheduler that dynamically balances load across prefill and decode engines. Our evaluation on three models with production agentic workloads demonstrates that DualPath improves offline inference throughput by up to 1.87times on our in-house inference system. It can also improve online serving throughput by an average factor of 1.96times without violating SLO.

DualPath: Rompendo o Gargalo de Largura de Banda de Armazenamento na Inferência de LLMs Agentes

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Resumo

Support