Eine Übersicht über Inferenz-Engines für große Sprachmodelle: Perspektiven zu Optimierung und Effizienz
A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
May 3, 2025
Autoren: Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) finden breite Anwendung in Chatbots, Code-Generatoren und Suchmaschinen. Arbeitslasten wie Chain-of-Thought, komplexes Schlussfolgern und Agentendienste erhöhen die Inferenzkosten erheblich, indem sie das Modell wiederholt aufrufen. Optimierungsmethoden wie Parallelität, Kompression und Caching wurden eingeführt, um die Kosten zu senken, doch die vielfältigen Dienstleistungsanforderungen erschweren die Auswahl der richtigen Methode. In jüngster Zeit sind spezialisierte LLM-Inferenz-Engines als Schlüsselkomponente zur Integration der Optimierungsmethoden in dienstorientierte Infrastrukturen entstanden. Dennoch fehlt es noch an einer systematischen Untersuchung von Inferenz-Engines. Diese Arbeit bietet eine umfassende Bewertung von 25 Open-Source- und kommerziellen Inferenz-Engines. Wir untersuchen jede Inferenz-Engine hinsichtlich Benutzerfreundlichkeit, Bereitstellungsfreundlichkeit, allgemeiner Unterstützung, Skalierbarkeit und Eignung für durchsatz- und latenzbewusste Berechnungen. Darüber hinaus erforschen wir die Designziele jeder Inferenz-Engine, indem wir die von ihr unterstützten Optimierungstechniken untersuchen. Zusätzlich bewerten wir die Reife des Ökosystems von Open-Source-Inferenz-Engines und behandeln die Leistungs- und Kostenpolitik kommerzieller Lösungen. Wir skizzieren zukünftige Forschungsrichtungen, die die Unterstützung komplexer LLM-basierter Dienste, die Unterstützung verschiedener Hardware und verbesserte Sicherheit umfassen, und bieten praktische Anleitungen für Forscher und Entwickler bei der Auswahl und Gestaltung optimierter LLM-Inferenz-Engines. Wir stellen auch ein öffentliches Repository zur Verfügung, um die Entwicklungen in diesem sich schnell entwickelnden Bereich kontinuierlich zu verfolgen:
https://github.com/sihyeong/Awesome-LLM-Inference-Engine
English
Large language models (LLMs) are widely applied in chatbots, code generators,
and search engines. Workloads such as chain-of-thought, complex reasoning, and
agent services significantly increase the inference cost by invoking the model
repeatedly. Optimization methods such as parallelism, compression, and caching
have been adopted to reduce costs, but the diverse service requirements make it
hard to select the right method. Recently, specialized LLM inference engines
have emerged as a key component for integrating the optimization methods into
service-oriented infrastructures. However, a systematic study on inference
engines is still lacking. This paper provides a comprehensive evaluation of 25
open-source and commercial inference engines. We examine each inference engine
in terms of ease-of-use, ease-of-deployment, general-purpose support,
scalability, and suitability for throughput- and latency-aware computation.
Furthermore, we explore the design goals of each inference engine by
investigating the optimization techniques it supports. In addition, we assess
the ecosystem maturity of open source inference engines and handle the
performance and cost policy of commercial solutions. We outline future research
directions that include support for complex LLM-based services, support of
various hardware, and enhanced security, offering practical guidance to
researchers and developers in selecting and designing optimized LLM inference
engines. We also provide a public repository to continually track developments
in this fast-evolving field:
https://github.com/sihyeong/Awesome-LLM-Inference-EngineSummary
AI-Generated Summary