DualPath: Durchbrechen des Speicherbandbreiten-Flaschenhalses bei agentenbasierter LLM-Inferenz

Zusammenfassung

Die Leistung von mehrstufigen, agentenbasierten LLM-Inferenzen wird zunehmend durch KV-Cache-Speicher-E/A dominiert und nicht durch Berechnungen. In verbreiteten disaggregierten Architekturen erzeugt das Laden des massiven KV-Caches aus externem Speicher ein grundlegendes Ungleichgewicht: Die Speicher-NICs auf Prefill-Engines werden bandbreitenmäßig gesättigt, während die auf Decoding-Engines inaktiv bleiben. Diese Asymmetrie schränkt den Gesamtdurchsatz des Systems stark ein. Wir stellen DualPath vor, ein Inferenzsystem, das diesen Engpass durch die Einführung eines dualen Pfades zum Laden des KV-Caches beseitigt. Über den traditionellen Pfad vom Speicher zur Prefill-Engine hinaus ermöglicht DualPath einen neuartigen Pfad vom Speicher zur Decode-Engine, bei dem der KV-Cache in Decoding-Engines geladen und dann effizient über das Rechnernetzwerk per RDMA zu Prefill-Engines übertragen wird. DualPath kombiniert diesen optimierten Datenpfad – der von Natur aus Netzwerküberlastung vermeidet und keine Interferenz mit latenzkritischen Modellausführungskommunikationen verursacht – mit einem globalen Scheduler, der die Last dynamisch über Prefill- und Decode-Engines verteilt. Unsere Auswertung an drei Modellen mit produktiven agentenbasierten Workloads zeigt, dass DualPath den Offline-Inferenzdurchsatz in unserem hauseigenen Inferenzsystem um bis zum 1,87-fachen steigert. Es kann auch den Online-Bereitstellungsdurchsatz durchschnittlich um das 1,96-fache verbessern, ohne Service Level Agreements (SLAs) zu verletzen.

English

The performance of multi-turn, agentic LLM inference is increasingly dominated by KV-Cache storage I/O rather than computation. In prevalent disaggregated architectures, loading the massive KV-Cache from external storage creates a fundamental imbalance: storage NICs on prefill engines become bandwidth-saturated, while those on decoding engines remain idle. This asymmetry severely constrains overall system throughput. We present DualPath, an inference system that breaks this bottleneck by introducing dual-path KV-Cache loading. Beyond the traditional storage-to-prefill path, DualPath enables a novel storage-to-decode path, in which the KV-Cache is loaded into decoding engines and then efficiently transferred to prefill engines via RDMA over the compute network. DualPath combines this optimized data path -- which inherently avoids network congestion and avoids interference with latency-critical model execution communications -- with a global scheduler that dynamically balances load across prefill and decode engines. Our evaluation on three models with production agentic workloads demonstrates that DualPath improves offline inference throughput by up to 1.87times on our in-house inference system. It can also improve online serving throughput by an average factor of 1.96times without violating SLO.

DualPath: Durchbrechen des Speicherbandbreiten-Flaschenhalses bei agentenbasierter LLM-Inferenz

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Zusammenfassung

Support