Una panoramica sui motori di inferenza per i modelli linguistici di grandi dimensioni: prospettive sull'ottimizzazione e l'efficienza
A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
May 3, 2025
Autori: Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati in chatbot, generatori di codice e motori di ricerca. Carichi di lavoro come il ragionamento a catena di pensiero (chain-of-thought), il ragionamento complesso e i servizi basati su agenti aumentano significativamente il costo di inferenza richiedendo ripetute invocazioni del modello. Metodi di ottimizzazione come parallelismo, compressione e caching sono stati adottati per ridurre i costi, ma la diversità dei requisiti di servizio rende difficile selezionare il metodo più adatto. Recentemente, motori di inferenza specializzati per LLM sono emersi come componente chiave per integrare le tecniche di ottimizzazione in infrastrutture orientate ai servizi. Tuttavia, manca ancora uno studio sistematico sui motori di inferenza. Questo articolo fornisce una valutazione completa di 25 motori di inferenza open source e commerciali. Esaminiamo ciascun motore in termini di facilità d'uso, facilità di distribuzione, supporto per scopi generali, scalabilità e adeguatezza per calcoli sensibili a throughput e latenza. Inoltre, esploriamo gli obiettivi di progettazione di ciascun motore di inferenza investigando le tecniche di ottimizzazione supportate. Valutiamo anche la maturità dell'ecosistema dei motori open source e gestiamo le politiche di prestazioni e costi delle soluzioni commerciali. Delineiamo future direzioni di ricerca che includono il supporto per servizi complessi basati su LLM, il supporto per vari hardware e una maggiore sicurezza, offrendo una guida pratica a ricercatori e sviluppatori nella selezione e progettazione di motori di inferenza ottimizzati per LLM. Forniamo inoltre un repository pubblico per monitorare continuamente gli sviluppi in questo campo in rapida evoluzione: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.
English
Large language models (LLMs) are widely applied in chatbots, code generators,
and search engines. Workloads such as chain-of-thought, complex reasoning, and
agent services significantly increase the inference cost by invoking the model
repeatedly. Optimization methods such as parallelism, compression, and caching
have been adopted to reduce costs, but the diverse service requirements make it
hard to select the right method. Recently, specialized LLM inference engines
have emerged as a key component for integrating the optimization methods into
service-oriented infrastructures. However, a systematic study on inference
engines is still lacking. This paper provides a comprehensive evaluation of 25
open-source and commercial inference engines. We examine each inference engine
in terms of ease-of-use, ease-of-deployment, general-purpose support,
scalability, and suitability for throughput- and latency-aware computation.
Furthermore, we explore the design goals of each inference engine by
investigating the optimization techniques it supports. In addition, we assess
the ecosystem maturity of open source inference engines and handle the
performance and cost policy of commercial solutions. We outline future research
directions that include support for complex LLM-based services, support of
various hardware, and enhanced security, offering practical guidance to
researchers and developers in selecting and designing optimized LLM inference
engines. We also provide a public repository to continually track developments
in this fast-evolving field:
https://github.com/sihyeong/Awesome-LLM-Inference-Engine