ChatPaper.aiChatPaper

Eine Übersicht über Inferenz-Engines für große Sprachmodelle: Perspektiven zu Optimierung und Effizienz

A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

May 3, 2025
Autoren: Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) finden breite Anwendung in Chatbots, Code-Generatoren und Suchmaschinen. Arbeitslasten wie Chain-of-Thought, komplexes Schlussfolgern und Agentendienste erhöhen die Inferenzkosten erheblich, indem sie das Modell wiederholt aufrufen. Optimierungsmethoden wie Parallelität, Kompression und Caching wurden eingeführt, um die Kosten zu senken, doch die vielfältigen Dienstleistungsanforderungen erschweren die Auswahl der richtigen Methode. In jüngster Zeit sind spezialisierte LLM-Inferenz-Engines als Schlüsselkomponente zur Integration der Optimierungsmethoden in dienstorientierte Infrastrukturen entstanden. Dennoch fehlt es noch an einer systematischen Untersuchung von Inferenz-Engines. Diese Arbeit bietet eine umfassende Bewertung von 25 Open-Source- und kommerziellen Inferenz-Engines. Wir untersuchen jede Inferenz-Engine hinsichtlich Benutzerfreundlichkeit, Bereitstellungsfreundlichkeit, allgemeiner Unterstützung, Skalierbarkeit und Eignung für durchsatz- und latenzbewusste Berechnungen. Darüber hinaus erforschen wir die Designziele jeder Inferenz-Engine, indem wir die von ihr unterstützten Optimierungstechniken untersuchen. Zusätzlich bewerten wir die Reife des Ökosystems von Open-Source-Inferenz-Engines und behandeln die Leistungs- und Kostenpolitik kommerzieller Lösungen. Wir skizzieren zukünftige Forschungsrichtungen, die die Unterstützung komplexer LLM-basierter Dienste, die Unterstützung verschiedener Hardware und verbesserte Sicherheit umfassen, und bieten praktische Anleitungen für Forscher und Entwickler bei der Auswahl und Gestaltung optimierter LLM-Inferenz-Engines. Wir stellen auch ein öffentliches Repository zur Verfügung, um die Entwicklungen in diesem sich schnell entwickelnden Bereich kontinuierlich zu verfolgen: https://github.com/sihyeong/Awesome-LLM-Inference-Engine
English
Large language models (LLMs) are widely applied in chatbots, code generators, and search engines. Workloads such as chain-of-thought, complex reasoning, and agent services significantly increase the inference cost by invoking the model repeatedly. Optimization methods such as parallelism, compression, and caching have been adopted to reduce costs, but the diverse service requirements make it hard to select the right method. Recently, specialized LLM inference engines have emerged as a key component for integrating the optimization methods into service-oriented infrastructures. However, a systematic study on inference engines is still lacking. This paper provides a comprehensive evaluation of 25 open-source and commercial inference engines. We examine each inference engine in terms of ease-of-use, ease-of-deployment, general-purpose support, scalability, and suitability for throughput- and latency-aware computation. Furthermore, we explore the design goals of each inference engine by investigating the optimization techniques it supports. In addition, we assess the ecosystem maturity of open source inference engines and handle the performance and cost policy of commercial solutions. We outline future research directions that include support for complex LLM-based services, support of various hardware, and enhanced security, offering practical guidance to researchers and developers in selecting and designing optimized LLM inference engines. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/sihyeong/Awesome-LLM-Inference-Engine

Summary

AI-Generated Summary

PDF181May 6, 2025