Het Temmen van de Chaos: Gecoördineerd Autoscaling voor Heterogene en Gedisaggregeerde LLM-inferentie
Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
August 27, 2025
Auteurs: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI
Samenvatting
Het bedienen van grote taalmodellen (LLMs) is een GPU-intensieve taak waarbij traditionele autoscalers tekortschieten, vooral voor moderne Prefill-Decode (P/D) gedisaggregeerde architecturen. Deze architectuurverschuiving, hoewel krachtig, introduceert aanzienlijke operationele uitdagingen, waaronder inefficiënt gebruik van heterogene hardware, netwerkflessenhalzen en kritieke onevenwichtigheden tussen de prefill- en decode-fasen. Wij introduceren HeteroScale, een gecoördineerd autoscaling-framework dat de kernuitdagingen van gedisaggregeerd P/D-bedienen aanpakt. HeteroScale combineert een topologiebewuste scheduler die zich aanpast aan heterogene hardware- en netwerkbeperkingen met een nieuw metriek-gestuurd beleid, afgeleid uit de eerste grootschalige empirische studie van autoscaling-signalen in productie. Door gebruik te maken van een enkele, robuuste metriek om zowel prefill- als decode-pools gezamenlijk te schalen, handhaaft HeteroScale architectonisch evenwicht terwijl het efficiënt, adaptief resourcemanagement waarborgt. Geïmplementeerd in een enorme productieomgeving op tienduizenden GPU's, heeft HeteroScale zijn effectiviteit bewezen door de gemiddelde GPU-utilisatie met een significante 26,6 procentpunten te verhogen en honderdduizenden GPU-uren per dag te besparen, terwijl strikte service level objectives worden gehandhaafd.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where
traditional autoscalers fall short, particularly for modern Prefill-Decode
(P/D) disaggregated architectures. This architectural shift, while powerful,
introduces significant operational challenges, including inefficient use of
heterogeneous hardware, network bottlenecks, and critical imbalances between
prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling
framework that addresses the core challenges of P/D disaggregated serving.
HeteroScale combines a topology-aware scheduler that adapts to heterogeneous
hardware and network constraints with a novel metric-driven policy derived from
the first large-scale empirical study of autoscaling signals in production. By
leveraging a single, robust metric to jointly scale prefill and decode pools,
HeteroScale maintains architectural balance while ensuring efficient, adaptive
resource management. Deployed in a massive production environment on tens of
thousands of GPUs, HeteroScale has proven its effectiveness, increasing average
GPU utilization by a significant 26.6 percentage points and saving hundreds of
thousands of GPU-hours daily, all while upholding stringent service level
objectives.