Bändigung der Titanen: Ein Überblick über effizientes Inferenz-Serving für große Sprachmodelle

papers.abstract

Große Sprachmodelle (LLMs) für Generative KI haben bemerkenswerte Fortschritte erzielt und sich zu hochentwickelten und vielseitigen Werkzeugen entwickelt, die in verschiedenen Domänen und Anwendungen weit verbreitet sind. Der erhebliche Speicherbedarf, der durch ihre enorme Anzahl von Parametern verursacht wird, kombiniert mit den hohen Rechenanforderungen des Aufmerksamkeitsmechanismus, stellt jedoch erhebliche Herausforderungen bei der Erzielung von niedriger Latenz und hohem Durchsatz für LLM-Inferenzdienste dar. Jüngste Fortschritte, die durch bahnbrechende Forschung vorangetrieben wurden, haben die Entwicklung in diesem Bereich erheblich beschleunigt. Dieses Papier bietet einen umfassenden Überblick über diese Methoden, der grundlegende Ansätze auf Instanzebene, detaillierte Strategien auf Cluster-Ebene, aufkommende Szenario-Richtungen sowie andere diverse, aber wichtige Bereiche abdeckt. Auf der Instanzebene betrachten wir die Modellplatzierung, die Anforderungsplanung, die Vorhersage der Dekodierungslänge, die Speicherverwaltung und das Disaggregationsparadigma. Auf der Cluster-Ebene untersuchen wir die Bereitstellung von GPU-Clustern, den Lastausgleich zwischen mehreren Instanzen und Cloud-Service-Lösungen. Für aufkommende Szenarien strukturieren wir die Diskussion um spezifische Aufgaben, Module und unterstützende Methoden. Um einen ganzheitlichen Überblick zu gewährleisten, heben wir auch mehrere Nischenbereiche hervor, die jedoch von entscheidender Bedeutung sind. Schließlich skizzieren wir potenzielle Forschungsrichtungen, um das Feld der LLM-Inferenzbereitstellung weiter voranzutreiben.

English

Large Language Models (LLMs) for Generative AI have achieved remarkable progress, evolving into sophisticated and versatile tools widely adopted across various domains and applications. However, the substantial memory overhead caused by their vast number of parameters, combined with the high computational demands of the attention mechanism, poses significant challenges in achieving low latency and high throughput for LLM inference services. Recent advancements, driven by groundbreaking research, have significantly accelerated progress in this field. This paper provides a comprehensive survey of these methods, covering fundamental instance-level approaches, in-depth cluster-level strategies, emerging scenario directions, and other miscellaneous but important areas. At the instance level, we review model placement, request scheduling, decoding length prediction, storage management, and the disaggregation paradigm. At the cluster level, we explore GPU cluster deployment, multi-instance load balancing, and cloud service solutions. For emerging scenarios, we organize the discussion around specific tasks, modules, and auxiliary methods. To ensure a holistic overview, we also highlight several niche yet critical areas. Finally, we outline potential research directions to further advance the field of LLM inference serving.

Bändigung der Titanen: Ein Überblick über effizientes Inferenz-Serving für große Sprachmodelle

Taming the Titans: A Survey of Efficient LLM Inference Serving

papers.abstract

Support