Una Revisión sobre Motores de Inferencia para Modelos de Lenguaje de Gran Escala: Perspectivas sobre Optimización y Eficiencia
A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
May 3, 2025
Autores: Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se aplican ampliamente en chatbots, generadores de código y motores de búsqueda. Cargas de trabajo como el razonamiento en cadena, el razonamiento complejo y los servicios de agentes aumentan significativamente el costo de inferencia al invocar el modelo repetidamente. Métodos de optimización como el paralelismo, la compresión y el almacenamiento en caché se han adoptado para reducir costos, pero los diversos requisitos de servicio dificultan la selección del método adecuado. Recientemente, motores de inferencia especializados para LLMs han surgido como un componente clave para integrar los métodos de optimización en infraestructuras orientadas a servicios. Sin embargo, aún falta un estudio sistemático sobre los motores de inferencia. Este artículo proporciona una evaluación exhaustiva de 25 motores de inferencia, tanto de código abierto como comerciales. Examinamos cada motor de inferencia en términos de facilidad de uso, facilidad de implementación, soporte de propósito general, escalabilidad y adecuación para cálculos sensibles al rendimiento y la latencia. Además, exploramos los objetivos de diseño de cada motor de inferencia al investigar las técnicas de optimización que admite. También evaluamos la madurez del ecosistema de los motores de inferencia de código abierto y manejamos la política de rendimiento y costo de las soluciones comerciales. Esbozamos futuras direcciones de investigación que incluyen soporte para servicios complejos basados en LLMs, compatibilidad con diversos hardware y seguridad mejorada, ofreciendo orientación práctica a investigadores y desarrolladores para seleccionar y diseñar motores de inferencia de LLMs optimizados. Además, proporcionamos un repositorio público para rastrear continuamente los avances en este campo en rápida evolución: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.
English
Large language models (LLMs) are widely applied in chatbots, code generators,
and search engines. Workloads such as chain-of-thought, complex reasoning, and
agent services significantly increase the inference cost by invoking the model
repeatedly. Optimization methods such as parallelism, compression, and caching
have been adopted to reduce costs, but the diverse service requirements make it
hard to select the right method. Recently, specialized LLM inference engines
have emerged as a key component for integrating the optimization methods into
service-oriented infrastructures. However, a systematic study on inference
engines is still lacking. This paper provides a comprehensive evaluation of 25
open-source and commercial inference engines. We examine each inference engine
in terms of ease-of-use, ease-of-deployment, general-purpose support,
scalability, and suitability for throughput- and latency-aware computation.
Furthermore, we explore the design goals of each inference engine by
investigating the optimization techniques it supports. In addition, we assess
the ecosystem maturity of open source inference engines and handle the
performance and cost policy of commercial solutions. We outline future research
directions that include support for complex LLM-based services, support of
various hardware, and enhanced security, offering practical guidance to
researchers and developers in selecting and designing optimized LLM inference
engines. We also provide a public repository to continually track developments
in this fast-evolving field:
https://github.com/sihyeong/Awesome-LLM-Inference-EngineSummary
AI-Generated Summary