DualPath: Het doorbreken van de opslagbandbreedteknelpunt bij agent-gebaseerde LLM-inferentie

Samenvatting

De prestaties van multi-turn, agentische LLM-inferentie worden in toenemende mate gedomineerd door KV-Cache opslag-I/O in plaats van rekenwerk. In gangbare gedisaggregeerde architecturen creëert het laden van de enorme KV-Cache uit externe opslag een fundamentele onbalans: de opslag-NIC's op prefill-engines raken bandbreedte-verzadigd, terwijl die op decoding-engines inactief blijven. Deze asymmetrie beperkt de totale systeemdoorvoer ernstig. Wij presenteren DualPath, een inferentiesysteem dat deze knelpunt doorbreekt door dual-path KV-Cache-laden te introduceren. Naast het traditionele pad van opslag-naar-prefill maakt DualPath een nieuw pad van opslag-naar-decode mogelijk, waarbij de KV-Cache in decoding-engines wordt geladen en vervolgens efficiënt naar prefill-engines wordt overgedragen via RDMA over het rekennetwerk. DualPath combineert dit geoptimaliseerde gegevenspad – dat van nature netwerkcongestie vermijdt en interferentie met latentie-kritieke modeluitvoeringscommunicatie voorkomt – met een globale planner die de belasting dynamisch verdeelt over prefill- en decode-engines. Onze evaluatie op drie modellen met productie-agentische workloads toont aan dat DualPath de offline-inferentiedoorvoer met tot 1,87 keer verbetert op ons interne inferentiesysteem. Het kan ook de online servicedoorvoer met een gemiddelde factor van 1,96 keer verbeteren zonder de SLO te schenden.

English

The performance of multi-turn, agentic LLM inference is increasingly dominated by KV-Cache storage I/O rather than computation. In prevalent disaggregated architectures, loading the massive KV-Cache from external storage creates a fundamental imbalance: storage NICs on prefill engines become bandwidth-saturated, while those on decoding engines remain idle. This asymmetry severely constrains overall system throughput. We present DualPath, an inference system that breaks this bottleneck by introducing dual-path KV-Cache loading. Beyond the traditional storage-to-prefill path, DualPath enables a novel storage-to-decode path, in which the KV-Cache is loaded into decoding engines and then efficiently transferred to prefill engines via RDMA over the compute network. DualPath combines this optimized data path -- which inherently avoids network congestion and avoids interference with latency-critical model execution communications -- with a global scheduler that dynamically balances load across prefill and decode engines. Our evaluation on three models with production agentic workloads demonstrates that DualPath improves offline inference throughput by up to 1.87times on our in-house inference system. It can also improve online serving throughput by an average factor of 1.96times without violating SLO.

DualPath: Het doorbreken van de opslagbandbreedteknelpunt bij agent-gebaseerde LLM-inferentie

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Samenvatting

Support