ChatPaper.aiChatPaper

Domando a los Titanes: Un Estudio sobre la Inferencia Eficiente en el Servicio de Modelos de Lenguaje de Gran Escala

Taming the Titans: A Survey of Efficient LLM Inference Serving

April 28, 2025
Autores: Ranran Zhen, Juntao Li, Yixin Ji, Zhenlin Yang, Tong Liu, Qingrong Xia, Xinyu Duan, Zhefeng Wang, Baoxing Huai, Min Zhang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) para IA Generativa han logrado avances notables, evolucionando hacia herramientas sofisticadas y versátiles ampliamente adoptadas en diversos dominios y aplicaciones. Sin embargo, la considerable sobrecarga de memoria causada por su gran número de parámetros, combinada con las altas demandas computacionales del mecanismo de atención, plantea desafíos significativos para lograr baja latencia y alto rendimiento en los servicios de inferencia de LLMs. Los avances recientes, impulsados por investigaciones innovadoras, han acelerado considerablemente el progreso en este campo. Este artículo ofrece una revisión exhaustiva de estos métodos, cubriendo enfoques fundamentales a nivel de instancia, estrategias detalladas a nivel de clúster, direcciones emergentes en escenarios específicos y otras áreas diversas pero importantes. A nivel de instancia, revisamos la ubicación del modelo, la programación de solicitudes, la predicción de la longitud de decodificación, la gestión de almacenamiento y el paradigma de desagregación. A nivel de clúster, exploramos el despliegue en clústeres de GPU, el equilibrio de carga multi-instancia y las soluciones de servicios en la nube. Para escenarios emergentes, organizamos la discusión en torno a tareas específicas, módulos y métodos auxiliares. Para garantizar una visión integral, también destacamos varias áreas especializadas pero críticas. Finalmente, esbozamos posibles direcciones de investigación para seguir avanzando en el campo de la inferencia de LLMs.
English
Large Language Models (LLMs) for Generative AI have achieved remarkable progress, evolving into sophisticated and versatile tools widely adopted across various domains and applications. However, the substantial memory overhead caused by their vast number of parameters, combined with the high computational demands of the attention mechanism, poses significant challenges in achieving low latency and high throughput for LLM inference services. Recent advancements, driven by groundbreaking research, have significantly accelerated progress in this field. This paper provides a comprehensive survey of these methods, covering fundamental instance-level approaches, in-depth cluster-level strategies, emerging scenario directions, and other miscellaneous but important areas. At the instance level, we review model placement, request scheduling, decoding length prediction, storage management, and the disaggregation paradigm. At the cluster level, we explore GPU cluster deployment, multi-instance load balancing, and cloud service solutions. For emerging scenarios, we organize the discussion around specific tasks, modules, and auxiliary methods. To ensure a holistic overview, we also highlight several niche yet critical areas. Finally, we outline potential research directions to further advance the field of LLM inference serving.
PDF102May 4, 2025