Bändigung der Titanen: Ein Überblick über effizientes Inferenz-Serving für große Sprachmodelle
Taming the Titans: A Survey of Efficient LLM Inference Serving
April 28, 2025
Autoren: Ranran Zhen, Juntao Li, Yixin Ji, Zhenlin Yang, Tong Liu, Qingrong Xia, Xinyu Duan, Zhefeng Wang, Baoxing Huai, Min Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) für Generative KI haben bemerkenswerte Fortschritte erzielt und sich zu hochentwickelten und vielseitigen Werkzeugen entwickelt, die in verschiedenen Domänen und Anwendungen weit verbreitet sind. Der erhebliche Speicherbedarf, der durch ihre enorme Anzahl von Parametern verursacht wird, kombiniert mit den hohen Rechenanforderungen des Aufmerksamkeitsmechanismus, stellt jedoch erhebliche Herausforderungen bei der Erzielung von niedriger Latenz und hohem Durchsatz für LLM-Inferenzdienste dar. Jüngste Fortschritte, die durch bahnbrechende Forschung vorangetrieben wurden, haben die Entwicklung in diesem Bereich erheblich beschleunigt. Dieses Papier bietet einen umfassenden Überblick über diese Methoden, der grundlegende Ansätze auf Instanzebene, detaillierte Strategien auf Cluster-Ebene, aufkommende Szenario-Richtungen sowie andere diverse, aber wichtige Bereiche abdeckt. Auf der Instanzebene betrachten wir die Modellplatzierung, die Anforderungsplanung, die Vorhersage der Dekodierungslänge, die Speicherverwaltung und das Disaggregationsparadigma. Auf der Cluster-Ebene untersuchen wir die Bereitstellung von GPU-Clustern, den Lastausgleich zwischen mehreren Instanzen und Cloud-Service-Lösungen. Für aufkommende Szenarien strukturieren wir die Diskussion um spezifische Aufgaben, Module und unterstützende Methoden. Um einen ganzheitlichen Überblick zu gewährleisten, heben wir auch mehrere Nischenbereiche hervor, die jedoch von entscheidender Bedeutung sind. Schließlich skizzieren wir potenzielle Forschungsrichtungen, um das Feld der LLM-Inferenzbereitstellung weiter voranzutreiben.
English
Large Language Models (LLMs) for Generative AI have achieved remarkable
progress, evolving into sophisticated and versatile tools widely adopted across
various domains and applications. However, the substantial memory overhead
caused by their vast number of parameters, combined with the high computational
demands of the attention mechanism, poses significant challenges in achieving
low latency and high throughput for LLM inference services. Recent
advancements, driven by groundbreaking research, have significantly accelerated
progress in this field. This paper provides a comprehensive survey of these
methods, covering fundamental instance-level approaches, in-depth cluster-level
strategies, emerging scenario directions, and other miscellaneous but important
areas. At the instance level, we review model placement, request scheduling,
decoding length prediction, storage management, and the disaggregation
paradigm. At the cluster level, we explore GPU cluster deployment,
multi-instance load balancing, and cloud service solutions. For emerging
scenarios, we organize the discussion around specific tasks, modules, and
auxiliary methods. To ensure a holistic overview, we also highlight several
niche yet critical areas. Finally, we outline potential research directions to
further advance the field of LLM inference serving.