Het Temmen van de Chaos: Gecoördineerd Autoscaling voor Heterogene en Gedisaggregeerde LLM-inferentie

Samenvatting

Het bedienen van grote taalmodellen (LLMs) is een GPU-intensieve taak waarbij traditionele autoscalers tekortschieten, vooral voor moderne Prefill-Decode (P/D) gedisaggregeerde architecturen. Deze architectuurverschuiving, hoewel krachtig, introduceert aanzienlijke operationele uitdagingen, waaronder inefficiënt gebruik van heterogene hardware, netwerkflessenhalzen en kritieke onevenwichtigheden tussen de prefill- en decode-fasen. Wij introduceren HeteroScale, een gecoördineerd autoscaling-framework dat de kernuitdagingen van gedisaggregeerd P/D-bedienen aanpakt. HeteroScale combineert een topologiebewuste scheduler die zich aanpast aan heterogene hardware- en netwerkbeperkingen met een nieuw metriek-gestuurd beleid, afgeleid uit de eerste grootschalige empirische studie van autoscaling-signalen in productie. Door gebruik te maken van een enkele, robuuste metriek om zowel prefill- als decode-pools gezamenlijk te schalen, handhaaft HeteroScale architectonisch evenwicht terwijl het efficiënt, adaptief resourcemanagement waarborgt. Geïmplementeerd in een enorme productieomgeving op tienduizenden GPU's, heeft HeteroScale zijn effectiviteit bewezen door de gemiddelde GPU-utilisatie met een significante 26,6 procentpunten te verhogen en honderdduizenden GPU-uren per dag te besparen, terwijl strikte service level objectives worden gehandhaafd.

English

Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.

Het Temmen van de Chaos: Gecoördineerd Autoscaling voor Heterogene en Gedisaggregeerde LLM-inferentie

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

Samenvatting

Support