ChatPaper.aiChatPaper

Une étude sur les moteurs d'inférence pour les grands modèles de langage : perspectives sur l'optimisation et l'efficacité

A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

May 3, 2025
Auteurs: Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee
cs.AI

Résumé

Les grands modèles de langage (LLM) sont largement utilisés dans les chatbots, les générateurs de code et les moteurs de recherche. Des charges de travail telles que le raisonnement en chaîne de pensée, le raisonnement complexe et les services d'agents augmentent considérablement les coûts d'inférence en invoquant le modèle de manière répétée. Des méthodes d'optimisation telles que le parallélisme, la compression et la mise en cache ont été adoptées pour réduire les coûts, mais la diversité des exigences de service rend difficile la sélection de la méthode appropriée. Récemment, des moteurs d'inférence spécialisés pour les LLM sont apparus comme un élément clé pour intégrer les méthodes d'optimisation dans des infrastructures orientées service. Cependant, une étude systématique sur les moteurs d'inférence fait encore défaut. Ce document propose une évaluation complète de 25 moteurs d'inférence open source et commerciaux. Nous examinons chaque moteur d'inférence en termes de facilité d'utilisation, de facilité de déploiement, de support polyvalent, d'évolutivité et d'adéquation aux calculs sensibles au débit et à la latence. De plus, nous explorons les objectifs de conception de chaque moteur d'inférence en étudiant les techniques d'optimisation qu'il prend en charge. Par ailleurs, nous évaluons la maturité de l'écosystème des moteurs d'inférence open source et traitons des politiques de performance et de coût des solutions commerciales. Nous esquissons des directions de recherche futures incluant le support pour les services complexes basés sur les LLM, le support de divers matériels et une sécurité renforcée, offrant ainsi des conseils pratiques aux chercheurs et développeurs pour sélectionner et concevoir des moteurs d'inférence LLM optimisés. Nous mettons également à disposition un dépôt public pour suivre continuellement les évolutions dans ce domaine en rapide mutation : https://github.com/sihyeong/Awesome-LLM-Inference-Engine
English
Large language models (LLMs) are widely applied in chatbots, code generators, and search engines. Workloads such as chain-of-thought, complex reasoning, and agent services significantly increase the inference cost by invoking the model repeatedly. Optimization methods such as parallelism, compression, and caching have been adopted to reduce costs, but the diverse service requirements make it hard to select the right method. Recently, specialized LLM inference engines have emerged as a key component for integrating the optimization methods into service-oriented infrastructures. However, a systematic study on inference engines is still lacking. This paper provides a comprehensive evaluation of 25 open-source and commercial inference engines. We examine each inference engine in terms of ease-of-use, ease-of-deployment, general-purpose support, scalability, and suitability for throughput- and latency-aware computation. Furthermore, we explore the design goals of each inference engine by investigating the optimization techniques it supports. In addition, we assess the ecosystem maturity of open source inference engines and handle the performance and cost policy of commercial solutions. We outline future research directions that include support for complex LLM-based services, support of various hardware, and enhanced security, offering practical guidance to researchers and developers in selecting and designing optimized LLM inference engines. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/sihyeong/Awesome-LLM-Inference-Engine

Summary

AI-Generated Summary

PDF181May 6, 2025