ChatPaper.aiChatPaper

El Impacto de los Hiperparámetros en el Rendimiento de la Inferencia de Modelos de Lenguaje Grandes: Una Evaluación de vLLM y Pipelines de HuggingFace

The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

August 2, 2024
Autores: Matias Martinez
cs.AI

Resumen

El reciente aumento de los modelos de lenguaje grandes (LLMs) de código abierto permite a los desarrolladores crear soluciones basadas en IA manteniendo el control sobre aspectos como la privacidad y el cumplimiento, proporcionando así gobernanza y propiedad del proceso de implementación del modelo. Para utilizar estos LLMs, se requieren motores de inferencia. Estos motores cargan los pesos del modelo en los recursos disponibles, como las GPUs, y procesan consultas para generar respuestas. La velocidad de inferencia, o rendimiento, del LLM es crucial para aplicaciones en tiempo real, ya que realiza millones o miles de millones de operaciones de punto flotante por inferencia. Recientemente, han surgido motores de inferencia avanzados como vLLM, que incorporan mecanismos novedosos como una gestión eficiente de la memoria para lograr un rendimiento de vanguardia. En este documento, analizamos el rendimiento, en particular el rendimiento (tokens generados por unidad de tiempo), de 20 LLMs utilizando dos bibliotecas de inferencia: vLLM y los pipelines de HuggingFace. Investigamos cómo varios hiperparámetros, que los desarrolladores deben configurar, influyen en el rendimiento de la inferencia. Nuestros resultados revelan que los paisajes de rendimiento son irregulares, con picos distintos, resaltando la importancia de la optimización de hiperparámetros para lograr el máximo rendimiento. También demostramos que aplicar la optimización de hiperparámetros al actualizar o degradar el modelo de GPU utilizado para la inferencia puede mejorar el rendimiento de los pipelines de HuggingFace en un promedio del 9.16% y 13.7%, respectivamente.
English
The recent surge of open-source large language models (LLMs) enables developers to create AI-based solutions while maintaining control over aspects such as privacy and compliance, thereby providing governance and ownership of the model deployment process. To utilize these LLMs, inference engines are needed. These engines load the model's weights onto available resources, such as GPUs, and process queries to generate responses. The speed of inference, or performance, of the LLM, is critical for real-time applications, as it computes millions or billions of floating point operations per inference. Recently, advanced inference engines such as vLLM have emerged, incorporating novel mechanisms such as efficient memory management to achieve state-of-the-art performance. In this paper, we analyze the performance, particularly the throughput (tokens generated per unit of time), of 20 LLMs using two inference libraries: vLLM and HuggingFace's pipelines. We investigate how various hyperparameters, which developers must configure, influence inference performance. Our results reveal that throughput landscapes are irregular, with distinct peaks, highlighting the importance of hyperparameter optimization to achieve maximum performance. We also show that applying hyperparameter optimization when upgrading or downgrading the GPU model used for inference can improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%, respectively.

Summary

AI-Generated Summary

PDF94November 28, 2024