ChatPaper.aiChatPaper

L'Impact des Hyperparamètres sur les Performances d'Inférence des Grands Modèles de Langage : Une Évaluation des Pipelines vLLM et HuggingFace

The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

August 2, 2024
Auteurs: Matias Martinez
cs.AI

Résumé

La récente montée en puissance des grands modèles de langage (LLM) open-source permet aux développeurs de créer des solutions basées sur l'IA tout en conservant le contrôle sur des aspects tels que la confidentialité et la conformité, offrant ainsi une gouvernance et une maîtrise du processus de déploiement des modèles. Pour utiliser ces LLM, des moteurs d'inférence sont nécessaires. Ces moteurs chargent les poids du modèle sur les ressources disponibles, telles que les GPU, et traitent les requêtes pour générer des réponses. La vitesse d'inférence, ou performance, du LLM est cruciale pour les applications en temps réel, car elle implique le calcul de millions ou de milliards d'opérations en virgule flottante par inférence. Récemment, des moteurs d'inférence avancés comme vLLM ont émergé, intégrant des mécanismes innovants tels qu'une gestion efficace de la mémoire pour atteindre des performances de pointe. Dans cet article, nous analysons la performance, en particulier le débit (tokens générés par unité de temps), de 20 LLM en utilisant deux bibliothèques d'inférence : vLLM et les pipelines de HuggingFace. Nous étudions comment divers hyperparamètres, que les développeurs doivent configurer, influencent la performance de l'inférence. Nos résultats révèlent que les paysages de débit sont irréguliers, avec des pics distincts, soulignant l'importance de l'optimisation des hyperparamètres pour atteindre une performance maximale. Nous montrons également que l'application de l'optimisation des hyperparamètres lors de la mise à niveau ou de la rétrogradation du modèle de GPU utilisé pour l'inférence peut améliorer le débit des pipelines de HuggingFace en moyenne de 9,16 % et 13,7 %, respectivement.
English
The recent surge of open-source large language models (LLMs) enables developers to create AI-based solutions while maintaining control over aspects such as privacy and compliance, thereby providing governance and ownership of the model deployment process. To utilize these LLMs, inference engines are needed. These engines load the model's weights onto available resources, such as GPUs, and process queries to generate responses. The speed of inference, or performance, of the LLM, is critical for real-time applications, as it computes millions or billions of floating point operations per inference. Recently, advanced inference engines such as vLLM have emerged, incorporating novel mechanisms such as efficient memory management to achieve state-of-the-art performance. In this paper, we analyze the performance, particularly the throughput (tokens generated per unit of time), of 20 LLMs using two inference libraries: vLLM and HuggingFace's pipelines. We investigate how various hyperparameters, which developers must configure, influence inference performance. Our results reveal that throughput landscapes are irregular, with distinct peaks, highlighting the importance of hyperparameter optimization to achieve maximum performance. We also show that applying hyperparameter optimization when upgrading or downgrading the GPU model used for inference can improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%, respectively.

Summary

AI-Generated Summary

PDF94November 28, 2024