ChatPaper.aiChatPaper

Domando o Caos: Escalonamento Automático Coordenado para Inferência de LLMs Heterogêneos e Desagregados

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

August 27, 2025
Autores: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI

Resumo

O serviço de grandes modelos de linguagem (LLMs) é uma tarefa intensiva em GPU, na qual os escalonadores automáticos tradicionais se mostram insuficientes, especialmente para arquiteturas modernas desagregadas de Preenchimento-Decodificação (P/D). Essa mudança arquitetônica, embora poderosa, introduz desafios operacionais significativos, incluindo o uso ineficiente de hardware heterogêneo, gargalos de rede e desequilíbrios críticos entre as etapas de preenchimento e decodificação. Apresentamos o HeteroScale, um framework de escalonamento automático coordenado que aborda os principais desafios do serviço desagregado P/D. O HeteroScale combina um escalonador ciente da topologia, que se adapta a restrições de hardware heterogêneo e de rede, com uma política orientada por métricas inovadora, derivada do primeiro estudo empírico em larga escala de sinais de escalonamento automático em produção. Ao aproveitar uma única métrica robusta para escalar conjuntamente os pools de preenchimento e decodificação, o HeteroScale mantém o equilíbrio arquitetônico enquanto garante um gerenciamento de recursos eficiente e adaptativo. Implantado em um ambiente de produção massivo, com dezenas de milhares de GPUs, o HeteroScale demonstrou sua eficácia, aumentando a utilização média das GPUs em impressionantes 26,6 pontos percentuais e economizando centenas de milhares de horas de GPU diariamente, tudo isso mantendo rigorosos objetivos de nível de serviço.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.
PDF62August 28, 2025