Domando el caos: Escalado automático coordinado para inferencia de modelos de lenguaje grandes heterogéneos y desagregados

Resumen

Servir modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es una tarea intensiva en el uso de GPU, donde los escaladores automáticos tradicionales no son suficientes, especialmente para las arquitecturas modernas desagregadas de Prellenado-Decodificación (P/D). Este cambio arquitectónico, aunque potente, introduce desafíos operativos significativos, incluyendo el uso ineficiente de hardware heterogéneo, cuellos de botella en la red y desequilibrios críticos entre las etapas de prellenado y decodificación. Presentamos HeteroScale, un marco de escalado automático coordinado que aborda los desafíos centrales del servicio desagregado P/D. HeteroScale combina un planificador consciente de la topología que se adapta a las restricciones de hardware heterogéneo y de red con una política novedosa basada en métricas, derivada del primer estudio empírico a gran escala de señales de escalado automático en producción. Al aprovechar una única métrica robusta para escalar conjuntamente los grupos de prellenado y decodificación, HeteroScale mantiene el equilibrio arquitectónico mientras asegura una gestión de recursos eficiente y adaptativa. Implementado en un entorno de producción masivo con decenas de miles de GPUs, HeteroScale ha demostrado su efectividad, aumentando la utilización promedio de GPU en 26.6 puntos porcentuales y ahorrando cientos de miles de horas-GPU diariamente, todo mientras se mantienen objetivos de nivel de servicio estrictos.

English

Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.

Domando el caos: Escalado automático coordinado para inferencia de modelos de lenguaje grandes heterogéneos y desagregados

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

Resumen

Support