El Impacto de los Hiperparámetros en el Rendimiento de la Inferencia de Modelos de Lenguaje Grandes: Una Evaluación de vLLM y Pipelines de HuggingFace
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines
August 2, 2024
Autores: Matias Martinez
cs.AI
Resumen
El reciente aumento de los modelos de lenguaje grandes (LLMs) de código abierto permite a los desarrolladores crear soluciones basadas en IA manteniendo el control sobre aspectos como la privacidad y el cumplimiento, proporcionando así gobernanza y propiedad del proceso de implementación del modelo. Para utilizar estos LLMs, se requieren motores de inferencia. Estos motores cargan los pesos del modelo en los recursos disponibles, como las GPUs, y procesan consultas para generar respuestas. La velocidad de inferencia, o rendimiento, del LLM es crucial para aplicaciones en tiempo real, ya que realiza millones o miles de millones de operaciones de punto flotante por inferencia. Recientemente, han surgido motores de inferencia avanzados como vLLM, que incorporan mecanismos novedosos como una gestión eficiente de la memoria para lograr un rendimiento de vanguardia. En este documento, analizamos el rendimiento, en particular el rendimiento (tokens generados por unidad de tiempo), de 20 LLMs utilizando dos bibliotecas de inferencia: vLLM y los pipelines de HuggingFace. Investigamos cómo varios hiperparámetros, que los desarrolladores deben configurar, influyen en el rendimiento de la inferencia. Nuestros resultados revelan que los paisajes de rendimiento son irregulares, con picos distintos, resaltando la importancia de la optimización de hiperparámetros para lograr el máximo rendimiento. También demostramos que aplicar la optimización de hiperparámetros al actualizar o degradar el modelo de GPU utilizado para la inferencia puede mejorar el rendimiento de los pipelines de HuggingFace en un promedio del 9.16% y 13.7%, respectivamente.
English
The recent surge of open-source large language models (LLMs) enables
developers to create AI-based solutions while maintaining control over aspects
such as privacy and compliance, thereby providing governance and ownership of
the model deployment process. To utilize these LLMs, inference engines are
needed. These engines load the model's weights onto available resources, such
as GPUs, and process queries to generate responses. The speed of inference, or
performance, of the LLM, is critical for real-time applications, as it computes
millions or billions of floating point operations per inference. Recently,
advanced inference engines such as vLLM have emerged, incorporating novel
mechanisms such as efficient memory management to achieve state-of-the-art
performance. In this paper, we analyze the performance, particularly the
throughput (tokens generated per unit of time), of 20 LLMs using two inference
libraries: vLLM and HuggingFace's pipelines. We investigate how various
hyperparameters, which developers must configure, influence inference
performance. Our results reveal that throughput landscapes are irregular, with
distinct peaks, highlighting the importance of hyperparameter optimization to
achieve maximum performance. We also show that applying hyperparameter
optimization when upgrading or downgrading the GPU model used for inference can
improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%,
respectively.Summary
AI-Generated Summary