DualPath : Briser le goulet d'étranglement de la bande passante mémoire dans l'inférence agentique des LLM

Résumé

Les performances de l'inférence multi-tours des LLMs agentiques sont de plus en plus dominées par les entrées/sorties de stockage du cache KV plutôt que par le calcul. Dans les architectures désagrégées prévalentes, le chargement du cache KV massif depuis le stockage externe crée un déséquilibre fondamental : les cartes réseau de stockage sur les moteurs de pré-remplissage deviennent saturées en bande passante, tandis que celles des moteurs de décodage restent inactives. Cette asymétrie limite sévèrement le débit global du système. Nous présentons DualPath, un système d'inférence qui brise ce goulot d'étranglement en introduisant un chargement dual du cache KV. Au-delà du chemin traditionnel stockage-vers-pré-remplissage, DualPath permet un nouveau chemin stockage-vers-décodage, dans lequel le cache KV est chargé dans les moteurs de décodage puis transféré efficacement vers les moteurs de pré-remplissage via RDMA sur le réseau de calcul. DualPath combine ce chemin de données optimisé – qui évite intrinsèquement la congestion réseau et n'interfère pas avec les communications critiques de latence de l'exécution du modèle – avec un ordonnanceur global qui équilibre dynamiquement la charge entre les moteurs de pré-remplissage et de décodage. Notre évaluation sur trois modèles avec des charges de travail agentiques de production démontre que DualPath améliore le débit d'inférence hors ligne jusqu'à 1,87 fois sur notre système d'inférence interne. Il peut également améliorer le débit de service en ligne d'un facteur moyen de 1,96 fois sans violer les SLO.

English

The performance of multi-turn, agentic LLM inference is increasingly dominated by KV-Cache storage I/O rather than computation. In prevalent disaggregated architectures, loading the massive KV-Cache from external storage creates a fundamental imbalance: storage NICs on prefill engines become bandwidth-saturated, while those on decoding engines remain idle. This asymmetry severely constrains overall system throughput. We present DualPath, an inference system that breaks this bottleneck by introducing dual-path KV-Cache loading. Beyond the traditional storage-to-prefill path, DualPath enables a novel storage-to-decode path, in which the KV-Cache is loaded into decoding engines and then efficiently transferred to prefill engines via RDMA over the compute network. DualPath combines this optimized data path -- which inherently avoids network congestion and avoids interference with latency-critical model execution communications -- with a global scheduler that dynamically balances load across prefill and decode engines. Our evaluation on three models with production agentic workloads demonstrates that DualPath improves offline inference throughput by up to 1.87times on our in-house inference system. It can also improve online serving throughput by an average factor of 1.96times without violating SLO.

DualPath : Briser le goulet d'étranglement de la bande passante mémoire dans l'inférence agentique des LLM

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Résumé

Support