Una Revisión sobre Motores de Inferencia para Modelos de Lenguaje de Gran Escala: Perspectivas sobre Optimización y Eficiencia

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se aplican ampliamente en chatbots, generadores de código y motores de búsqueda. Cargas de trabajo como el razonamiento en cadena, el razonamiento complejo y los servicios de agentes aumentan significativamente el costo de inferencia al invocar el modelo repetidamente. Métodos de optimización como el paralelismo, la compresión y el almacenamiento en caché se han adoptado para reducir costos, pero los diversos requisitos de servicio dificultan la selección del método adecuado. Recientemente, motores de inferencia especializados para LLMs han surgido como un componente clave para integrar los métodos de optimización en infraestructuras orientadas a servicios. Sin embargo, aún falta un estudio sistemático sobre los motores de inferencia. Este artículo proporciona una evaluación exhaustiva de 25 motores de inferencia, tanto de código abierto como comerciales. Examinamos cada motor de inferencia en términos de facilidad de uso, facilidad de implementación, soporte de propósito general, escalabilidad y adecuación para cálculos sensibles al rendimiento y la latencia. Además, exploramos los objetivos de diseño de cada motor de inferencia al investigar las técnicas de optimización que admite. También evaluamos la madurez del ecosistema de los motores de inferencia de código abierto y manejamos la política de rendimiento y costo de las soluciones comerciales. Esbozamos futuras direcciones de investigación que incluyen soporte para servicios complejos basados en LLMs, compatibilidad con diversos hardware y seguridad mejorada, ofreciendo orientación práctica a investigadores y desarrolladores para seleccionar y diseñar motores de inferencia de LLMs optimizados. Además, proporcionamos un repositorio público para rastrear continuamente los avances en este campo en rápida evolución: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.

English

Large language models (LLMs) are widely applied in chatbots, code generators, and search engines. Workloads such as chain-of-thought, complex reasoning, and agent services significantly increase the inference cost by invoking the model repeatedly. Optimization methods such as parallelism, compression, and caching have been adopted to reduce costs, but the diverse service requirements make it hard to select the right method. Recently, specialized LLM inference engines have emerged as a key component for integrating the optimization methods into service-oriented infrastructures. However, a systematic study on inference engines is still lacking. This paper provides a comprehensive evaluation of 25 open-source and commercial inference engines. We examine each inference engine in terms of ease-of-use, ease-of-deployment, general-purpose support, scalability, and suitability for throughput- and latency-aware computation. Furthermore, we explore the design goals of each inference engine by investigating the optimization techniques it supports. In addition, we assess the ecosystem maturity of open source inference engines and handle the performance and cost policy of commercial solutions. We outline future research directions that include support for complex LLM-based services, support of various hardware, and enhanced security, offering practical guidance to researchers and developers in selecting and designing optimized LLM inference engines. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/sihyeong/Awesome-LLM-Inference-Engine

Una Revisión sobre Motores de Inferencia para Modelos de Lenguaje de Gran Escala: Perspectivas sobre Optimización y Eficiencia

A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

Resumen

Support