ChatPaper.aiChatPaper

De Impact van Hyperparameters op de Inferentieprestaties van Grote Taalmodellen: Een Evaluatie van vLLM en HuggingFace Pipelines

The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

August 2, 2024
Auteurs: Matias Martinez
cs.AI

Samenvatting

De recente opkomst van open-source grote taalmodellen (LLMs) stelt ontwikkelaars in staat om AI-gebaseerde oplossingen te creëren terwijl ze controle behouden over aspecten zoals privacy en naleving, waardoor ze governance en eigendom over het implementatieproces van het model kunnen uitoefenen. Om deze LLMs te gebruiken, zijn inferentie-engines nodig. Deze engines laden de gewichten van het model op beschikbare resources, zoals GPU's, en verwerken queries om antwoorden te genereren. De snelheid van inferentie, of prestaties, van het LLM is cruciaal voor real-time toepassingen, aangezien het miljoenen of miljarden floating point operaties per inferentie berekent. Recentelijk zijn geavanceerde inferentie-engines zoals vLLM ontstaan, die nieuwe mechanismen zoals efficiënt geheugenbeheer incorporeren om state-of-the-art prestaties te bereiken. In dit artikel analyseren we de prestaties, met name de doorvoer (tokens gegenereerd per tijdseenheid), van 20 LLMs met behulp van twee inferentiebibliotheken: vLLM en HuggingFace's pipelines. We onderzoeken hoe verschillende hyperparameters, die ontwikkelaars moeten configureren, de inferentieprestaties beïnvloeden. Onze resultaten laten zien dat doorvoerlandschappen onregelmatig zijn, met duidelijke pieken, wat het belang van hyperparameteroptimalisatie benadrukt om maximale prestaties te bereiken. We tonen ook aan dat het toepassen van hyperparameteroptimalisatie bij het upgraden of downgraden van het GPU-model dat wordt gebruikt voor inferentie de doorvoer van HuggingFace pipelines gemiddeld met respectievelijk 9,16% en 13,7% kan verbeteren.
English
The recent surge of open-source large language models (LLMs) enables developers to create AI-based solutions while maintaining control over aspects such as privacy and compliance, thereby providing governance and ownership of the model deployment process. To utilize these LLMs, inference engines are needed. These engines load the model's weights onto available resources, such as GPUs, and process queries to generate responses. The speed of inference, or performance, of the LLM, is critical for real-time applications, as it computes millions or billions of floating point operations per inference. Recently, advanced inference engines such as vLLM have emerged, incorporating novel mechanisms such as efficient memory management to achieve state-of-the-art performance. In this paper, we analyze the performance, particularly the throughput (tokens generated per unit of time), of 20 LLMs using two inference libraries: vLLM and HuggingFace's pipelines. We investigate how various hyperparameters, which developers must configure, influence inference performance. Our results reveal that throughput landscapes are irregular, with distinct peaks, highlighting the importance of hyperparameter optimization to achieve maximum performance. We also show that applying hyperparameter optimization when upgrading or downgrading the GPU model used for inference can improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%, respectively.
PDF94February 7, 2026