Domando el caos: Escalado automático coordinado para inferencia de modelos de lenguaje grandes heterogéneos y desagregados
Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
August 27, 2025
Autores: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI
Resumen
Servir modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es una tarea intensiva en el uso de GPU, donde los escaladores automáticos tradicionales no son suficientes, especialmente para las arquitecturas modernas desagregadas de Prellenado-Decodificación (P/D). Este cambio arquitectónico, aunque potente, introduce desafíos operativos significativos, incluyendo el uso ineficiente de hardware heterogéneo, cuellos de botella en la red y desequilibrios críticos entre las etapas de prellenado y decodificación. Presentamos HeteroScale, un marco de escalado automático coordinado que aborda los desafíos centrales del servicio desagregado P/D. HeteroScale combina un planificador consciente de la topología que se adapta a las restricciones de hardware heterogéneo y de red con una política novedosa basada en métricas, derivada del primer estudio empírico a gran escala de señales de escalado automático en producción. Al aprovechar una única métrica robusta para escalar conjuntamente los grupos de prellenado y decodificación, HeteroScale mantiene el equilibrio arquitectónico mientras asegura una gestión de recursos eficiente y adaptativa. Implementado en un entorno de producción masivo con decenas de miles de GPUs, HeteroScale ha demostrado su efectividad, aumentando la utilización promedio de GPU en 26.6 puntos porcentuales y ahorrando cientos de miles de horas-GPU diariamente, todo mientras se mantienen objetivos de nivel de servicio estrictos.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where
traditional autoscalers fall short, particularly for modern Prefill-Decode
(P/D) disaggregated architectures. This architectural shift, while powerful,
introduces significant operational challenges, including inefficient use of
heterogeneous hardware, network bottlenecks, and critical imbalances between
prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling
framework that addresses the core challenges of P/D disaggregated serving.
HeteroScale combines a topology-aware scheduler that adapts to heterogeneous
hardware and network constraints with a novel metric-driven policy derived from
the first large-scale empirical study of autoscaling signals in production. By
leveraging a single, robust metric to jointly scale prefill and decode pools,
HeteroScale maintains architectural balance while ensuring efficient, adaptive
resource management. Deployed in a massive production environment on tens of
thousands of GPUs, HeteroScale has proven its effectiveness, increasing average
GPU utilization by a significant 26.6 percentage points and saving hundreds of
thousands of GPU-hours daily, all while upholding stringent service level
objectives.