ChatPaper.aiChatPaper

혼돈을 길들이기: 이질적이고 분산된 LLM 추론을 위한 조정된 자동 확장

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

August 27, 2025
저자: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI

초록

대규모 언어 모델(LLM) 서빙은 GPU 집약적인 작업으로, 특히 현대적인 Prefill-Decode(P/D) 분리 아키텍처에서는 기존의 오토스케일러가 한계를 보입니다. 이 아키텍처 전환은 강력한 성능을 제공하지만, 이질적인 하드웨어의 비효율적 사용, 네트워크 병목 현상, 그리고 prefill과 decode 단계 간의 중요한 불균형과 같은 상당한 운영상의 문제를 야기합니다. 우리는 이러한 P/D 분리 서빙의 핵심 문제를 해결하기 위해 HeteroScale라는 조정된 오토스케일링 프레임워크를 소개합니다. HeteroScale는 이질적인 하드웨어와 네트워크 제약에 적응하는 토폴로지 인식 스케줄러와, 실제 생산 환경에서의 오토스케일링 신호에 대한 첫 번째 대규모 실증 연구에서 도출된 새로운 메트릭 기반 정책을 결합합니다. 단일의 강력한 메트릭을 활용하여 prefill과 decode 풀을 함께 스케일링함으로써, HeteroScale는 아키텍처 균형을 유지하면서도 효율적이고 적응적인 자원 관리를 보장합니다. 수만 개의 GPU로 구성된 대규모 생산 환경에 배포된 HeteroScale은 평균 GPU 활용률을 26.6% 포인트나 크게 증가시키고, 매일 수십만 GPU-시간을 절약하며, 엄격한 서비스 수준 목표를 유지하는 데 효과를 입증했습니다.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.
PDF42August 28, 2025