ChatPaper.aiChatPaper

Укрощение хаоса: скоординированное автомасштабирование для гетерогенных и распределенных систем вывода больших языковых моделей

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

August 27, 2025
Авторы: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
cs.AI

Аннотация

Обслуживание больших языковых моделей (LLM) — это задача, требующая значительных ресурсов GPU, с которой традиционные системы автоматического масштабирования справляются плохо, особенно в контексте современных архитектур с разделением на этапы Prefill-Decode (P/D). Этот архитектурный сдвиг, несмотря на свою мощь, вносит серьезные операционные сложности, включая неэффективное использование гетерогенного оборудования, сетевые узкие места и критический дисбаланс между этапами предварительного заполнения (prefill) и декодирования (decode). Мы представляем HeteroScale — скоординированную систему автоматического масштабирования, которая решает ключевые проблемы обслуживания в архитектурах с разделением P/D. HeteroScale сочетает в себе планировщик, учитывающий топологию и адаптирующийся к ограничениям гетерогенного оборудования и сети, с новой метрической политикой, разработанной на основе первого крупномасштабного эмпирического исследования сигналов автоматического масштабирования в производственной среде. Используя единую надежную метрику для совместного масштабирования пулов prefill и decode, HeteroScale поддерживает архитектурный баланс, обеспечивая при этом эффективное и адаптивное управление ресурсами. Развернутая в крупномасштабной производственной среде на десятках тысяч GPU, HeteroScale доказала свою эффективность, увеличив среднюю загрузку GPU на значительные 26,6 процентных пункта и сэкономив сотни тысяч GPU-часов ежедневно, при этом строго соблюдая целевые показатели уровня обслуживания.
English
Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.
PDF42August 28, 2025