ChatPaper.aiChatPaper

Bändigung des Chaos: Koordinierte Autoskalierung für heterogene und disaggregierte LLM-Inferenz

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

August 27, 2025
papers.authors: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI

papers.abstract

Das Bereitstellen von Large Language Models (LLMs) ist eine GPU-intensive Aufgabe, bei der traditionelle Autoscaler an ihre Grenzen stoßen, insbesondere für moderne Prefill-Decode (P/D)-disaggregierte Architekturen. Dieser architektonische Wandel, obwohl leistungsstark, führt zu erheblichen betrieblichen Herausforderungen, einschließlich ineffizienter Nutzung heterogener Hardware, Netzwerkengpässen und kritischen Ungleichgewichten zwischen den Prefill- und Decode-Phasen. Wir stellen HeteroScale vor, ein koordiniertes Autoscaling-Framework, das die zentralen Herausforderungen der P/D-disaggregierten Bereitstellung adressiert. HeteroScale kombiniert einen topologiebewussten Scheduler, der sich an heterogene Hardware- und Netzwerkeinschränkungen anpasst, mit einer neuartigen metrikgesteuerten Policy, die aus der ersten groß angelegten empirischen Studie zu Autoscaling-Signalen in der Produktion abgeleitet wurde. Durch die Nutzung einer einzigen, robusten Metrik zur gemeinsamen Skalierung von Prefill- und Decode-Pools bewahrt HeteroScale die architektonische Balance und gewährleistet gleichzeitig eine effiziente, adaptive Ressourcenverwaltung. In einer massiven Produktionsumgebung auf Zehntausenden von GPUs eingesetzt, hat HeteroScale seine Wirksamkeit unter Beweis gestellt, indem es die durchschnittliche GPU-Auslastung um signifikante 26,6 Prozentpunkte steigerte und täglich Hunderttausende von GPU-Stunden einsparte, während gleichzeitig strenge Service-Level-Objekte eingehalten wurden.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.
PDF42August 28, 2025