ChatPaper.aiChatPaper

L'Impatto degli Iperparametri sulle Prestazioni di Inferenza dei Modelli Linguistici di Grandi Dimensioni: Una Valutazione delle Pipeline vLLM e HuggingFace

The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

August 2, 2024
Autori: Matias Martinez
cs.AI

Abstract

Il recente aumento dei modelli linguistici di grandi dimensioni (LLM) open-source consente agli sviluppatori di creare soluzioni basate sull'intelligenza artificiale mantenendo il controllo su aspetti come la privacy e la conformità, garantendo così la governance e la proprietà del processo di distribuzione del modello. Per utilizzare questi LLM, sono necessari motori di inferenza. Questi motori caricano i pesi del modello sulle risorse disponibili, come le GPU, e elaborano le query per generare risposte. La velocità di inferenza, o prestazione, dell'LLM è cruciale per applicazioni in tempo reale, poiché calcola milioni o miliardi di operazioni in virgola mobile per inferenza. Recentemente, sono emersi motori di inferenza avanzati come vLLM, che incorporano meccanismi innovativi come la gestione efficiente della memoria per raggiungere prestazioni all'avanguardia. In questo articolo, analizziamo le prestazioni, in particolare il throughput (token generati per unità di tempo), di 20 LLM utilizzando due librerie di inferenza: vLLM e le pipeline di HuggingFace. Investigiamo come vari iperparametri, che gli sviluppatori devono configurare, influenzino le prestazioni di inferenza. I nostri risultati rivelano che i paesaggi del throughput sono irregolari, con picchi distinti, evidenziando l'importanza dell'ottimizzazione degli iperparametri per raggiungere le massime prestazioni. Mostriamo inoltre che applicare l'ottimizzazione degli iperparametri quando si aggiorna o si downgrada il modello di GPU utilizzato per l'inferenza può migliorare il throughput delle pipeline di HuggingFace in media del 9,16% e del 13,7%, rispettivamente.
English
The recent surge of open-source large language models (LLMs) enables developers to create AI-based solutions while maintaining control over aspects such as privacy and compliance, thereby providing governance and ownership of the model deployment process. To utilize these LLMs, inference engines are needed. These engines load the model's weights onto available resources, such as GPUs, and process queries to generate responses. The speed of inference, or performance, of the LLM, is critical for real-time applications, as it computes millions or billions of floating point operations per inference. Recently, advanced inference engines such as vLLM have emerged, incorporating novel mechanisms such as efficient memory management to achieve state-of-the-art performance. In this paper, we analyze the performance, particularly the throughput (tokens generated per unit of time), of 20 LLMs using two inference libraries: vLLM and HuggingFace's pipelines. We investigate how various hyperparameters, which developers must configure, influence inference performance. Our results reveal that throughput landscapes are irregular, with distinct peaks, highlighting the importance of hyperparameter optimization to achieve maximum performance. We also show that applying hyperparameter optimization when upgrading or downgrading the GPU model used for inference can improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%, respectively.
PDF94November 28, 2024