DualPath: Rompiendo el Cuello de Botella del Ancho de Banda de Almacenamiento en la Inferencia de LLM Agenticos

Resumen

El rendimiento de la inferencia de LLM agéntica de múltiples turnos está cada vez más dominado por las operaciones de E/S del almacenamiento de la caché KV, en lugar de por el cómputo. En las arquitecturas desagregadas predominantes, cargar la masiva caché KV desde el almacenamiento externo crea un desequilibrio fundamental: los NIC de almacenamiento en los motores de prellenado se saturan de ancho de banda, mientras que los de los motores de decodificación permanecen inactivos. Esta asimetría restringe severamente el rendimiento general del sistema. Presentamos DualPath, un sistema de inferencia que rompe este cuello de botella mediante la introducción de una carga de caché KV de doble vía. Más allá de la vía tradicional de almacenamiento-a-prellenado, DualPath habilita una nueva vía de almacenamiento-a-decodificación, en la cual la caché KV se carga en los motores de decodificación y luego se transfiere eficientemente a los motores de prellenado mediante RDMA a través de la red de cómputo. DualPath combina esta ruta de datos optimizada —que evita inherentemente la congestión de la red y evita interferencias con las comunicaciones de ejecución del modelo, críticas para la latencia— con un planificador global que equilibra dinámicamente la carga entre los motores de prellenado y decodificación. Nuestra evaluación en tres modelos con cargas de trabajo agénticas de producción demuestra que DualPath mejora el rendimiento de inferencia en modo offline hasta en 1.87 veces en nuestro sistema de inferencia interno. También puede mejorar el rendimiento del servicio online por un factor promedio de 1.96 veces sin violar el SLO.

English

The performance of multi-turn, agentic LLM inference is increasingly dominated by KV-Cache storage I/O rather than computation. In prevalent disaggregated architectures, loading the massive KV-Cache from external storage creates a fundamental imbalance: storage NICs on prefill engines become bandwidth-saturated, while those on decoding engines remain idle. This asymmetry severely constrains overall system throughput. We present DualPath, an inference system that breaks this bottleneck by introducing dual-path KV-Cache loading. Beyond the traditional storage-to-prefill path, DualPath enables a novel storage-to-decode path, in which the KV-Cache is loaded into decoding engines and then efficiently transferred to prefill engines via RDMA over the compute network. DualPath combines this optimized data path -- which inherently avoids network congestion and avoids interference with latency-critical model execution communications -- with a global scheduler that dynamically balances load across prefill and decode engines. Our evaluation on three models with production agentic workloads demonstrates that DualPath improves offline inference throughput by up to 1.87times on our in-house inference system. It can also improve online serving throughput by an average factor of 1.96times without violating SLO.

DualPath: Rompiendo el Cuello de Botella del Ancho de Banda de Almacenamiento en la Inferencia de LLM Agenticos

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Resumen

Support