ChatPaper.aiChatPaper

Maîtriser le chaos : Mise à l'échelle automatique coordonnée pour l'inférence hétérogène et désagrégée des LLM

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

August 27, 2025
papers.authors: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI

papers.abstract

Le déploiement des grands modèles de langage (LLM) est une tâche gourmande en GPU, où les systèmes d'auto-mise à l'échelle traditionnels se révèlent insuffisants, en particulier pour les architectures modernes dégroupées Préremplissage-Décodage (P/D). Ce changement architectural, bien que puissant, introduit des défis opérationnels majeurs, notamment une utilisation inefficace du matériel hétérogène, des goulots d'étranglement réseau et des déséquilibres critiques entre les étapes de préremplissage et de décodage. Nous présentons HeteroScale, un cadre d'auto-mise à l'échelle coordonné qui répond aux principaux défis du déploiement dégroupé P/D. HeteroScale combine un planificateur conscient de la topologie, qui s'adapte aux contraintes matérielles et réseau hétérogènes, avec une politique innovante basée sur des métriques, dérivée de la première étude empirique à grande échelle des signaux d'auto-mise à l'échelle en production. En exploitant une métrique unique et robuste pour ajuster conjointement les pools de préremplissage et de décodage, HeteroScale maintient l'équilibre architectural tout en assurant une gestion des ressources efficace et adaptative. Déployé dans un environnement de production massif sur des dizaines de milliers de GPU, HeteroScale a démontré son efficacité, augmentant l'utilisation moyenne des GPU de 26,6 points de pourcentage et économisant des centaines de milliers d'heures de GPU par jour, tout en respectant des objectifs de niveau de service stricts.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.
PDF42August 28, 2025