Domare il caos: Scalabilità automatica coordinata per l'inferenza eterogenea e disaggregata di LLM
Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
August 27, 2025
Autori: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI
Abstract
Il servizio di Large Language Models (LLM) è un'attività ad alta intensità di GPU in cui i tradizionali sistemi di autoscaling risultano inadeguati, specialmente per le moderne architetture disaggregate Prefill-Decode (P/D). Questo cambiamento architetturale, sebbene potente, introduce significative sfide operative, tra cui un uso inefficiente di hardware eterogeneo, colli di bottiglia nella rete e squilibri critici tra le fasi di prefill e decode. Presentiamo HeteroScale, un framework di autoscaling coordinato che affronta le principali sfide del servizio disaggregato P/D. HeteroScale combina uno scheduler consapevole della topologia che si adatta a hardware eterogeneo e vincoli di rete con una nuova politica basata su metriche derivata dal primo studio empirico su larga scala dei segnali di autoscaling in produzione. Sfruttando una singola metrica robusta per scalare congiuntamente i pool di prefill e decode, HeteroScale mantiene l'equilibrio architetturale garantendo una gestione delle risorse efficiente e adattiva. Implementato in un ambiente di produzione massivo su decine di migliaia di GPU, HeteroScale ha dimostrato la sua efficacia, aumentando l'utilizzo medio delle GPU di un significativo 26,6 punti percentuali e risparmiando centinaia di migliaia di ore-GPU al giorno, tutto rispettando rigorosi obiettivi di livello di servizio.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where
traditional autoscalers fall short, particularly for modern Prefill-Decode
(P/D) disaggregated architectures. This architectural shift, while powerful,
introduces significant operational challenges, including inefficient use of
heterogeneous hardware, network bottlenecks, and critical imbalances between
prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling
framework that addresses the core challenges of P/D disaggregated serving.
HeteroScale combines a topology-aware scheduler that adapts to heterogeneous
hardware and network constraints with a novel metric-driven policy derived from
the first large-scale empirical study of autoscaling signals in production. By
leveraging a single, robust metric to jointly scale prefill and decode pools,
HeteroScale maintains architectural balance while ensuring efficient, adaptive
resource management. Deployed in a massive production environment on tens of
thousands of GPUs, HeteroScale has proven its effectiveness, increasing average
GPU utilization by a significant 26.6 percentage points and saving hundreds of
thousands of GPU-hours daily, all while upholding stringent service level
objectives.