DualPath: Superare il Collo di Bottiglia della Larghezza di Banda di Archiviazione nell'Inferenza di LLM Agenti

Abstract

Le prestazioni dell'inferenza di LLM agentici multi-turn sono sempre più dominate dall'I/O di archiviazione della KV-Cache piuttosto che dal calcolo. Nelle architetture disaggregate prevalenti, il caricamento dell'enorme KV-Cache dalla memoria esterna crea uno squilibrio fondamentale: le NIC di archiviazione sui motori di prefill raggiungono la saturazione della banda, mentre quelle sui motori di decoding rimangono inattive. Questa asimmetria vincola severamente il throughput complessivo del sistema. Presentiamo DualPath, un sistema di inferenza che rompe questo collo di bottiglia introducendo un caricamento dual-path della KV-Cache. Oltre al tradizionale percorso da storage a prefill, DualPath abilita un nuovo percorso da storage a decode, in cui la KV-Cache viene caricata nei motori di decoding e poi trasferita efficientemente ai motori di prefill via RDMA sulla rete di calcolo. DualPath combina questo percorso dati ottimizzato – che evita intrinsecamente la congestione di rete e l'interferenza con le comunicazioni critiche per la latenza dell'esecuzione del modello – con uno scheduler globale che bilancia dinamicamente il carico tra i motori di prefill e decode. La nostra valutazione su tre modelli con carichi di lavoro agentici di produzione dimostra che DualPath migliora il throughput di inferenza offline fino a 1.87 volte sul nostro sistema di inferenza interno. Può anche migliorare il throughput di servizio online di un fattore medio di 1.96 volte senza violare gli SLO.

English

The performance of multi-turn, agentic LLM inference is increasingly dominated by KV-Cache storage I/O rather than computation. In prevalent disaggregated architectures, loading the massive KV-Cache from external storage creates a fundamental imbalance: storage NICs on prefill engines become bandwidth-saturated, while those on decoding engines remain idle. This asymmetry severely constrains overall system throughput. We present DualPath, an inference system that breaks this bottleneck by introducing dual-path KV-Cache loading. Beyond the traditional storage-to-prefill path, DualPath enables a novel storage-to-decode path, in which the KV-Cache is loaded into decoding engines and then efficiently transferred to prefill engines via RDMA over the compute network. DualPath combines this optimized data path -- which inherently avoids network congestion and avoids interference with latency-critical model execution communications -- with a global scheduler that dynamically balances load across prefill and decode engines. Our evaluation on three models with production agentic workloads demonstrates that DualPath improves offline inference throughput by up to 1.87times on our in-house inference system. It can also improve online serving throughput by an average factor of 1.96times without violating SLO.

DualPath: Superare il Collo di Bottiglia della Larghezza di Banda di Archiviazione nell'Inferenza di LLM Agenti

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Abstract

Support