ChatPaper.aiChatPaper

Die Auswirkungen von Hyperparametern auf die Leistung der Inferenz großer Sprachmodelle: Eine Bewertung von vLLM und HuggingFace Pipelines.

The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

August 2, 2024
Autoren: Matias Martinez
cs.AI

Zusammenfassung

Der kürzliche Anstieg von Open-Source Large Language Models (LLMs) ermöglicht es Entwicklern, KI-basierte Lösungen zu erstellen, während sie die Kontrolle über Aspekte wie Datenschutz und Konformität behalten, wodurch Governance und Eigentum des Modellbereitstellungsprozesses gewährleistet werden. Um diese LLMs zu nutzen, werden Inferenz-Engines benötigt. Diese Engines laden die Gewichte des Modells auf verfügbare Ressourcen wie GPUs und verarbeiten Anfragen, um Antworten zu generieren. Die Geschwindigkeit der Inferenz oder Leistung des LLM ist für Echtzeit-Anwendungen entscheidend, da sie Millionen oder Milliarden von Gleitkommaoperationen pro Inferenz berechnet. In letzter Zeit sind fortschrittliche Inferenz-Engines wie vLLM aufgetaucht, die neuartige Mechanismen wie effizientes Speichermanagement integrieren, um eine Spitzenleistung zu erreichen. In diesem Papier analysieren wir die Leistung, insbesondere den Durchsatz (generierte Tokens pro Zeiteinheit), von 20 LLMs unter Verwendung von zwei Inferenz-Bibliotheken: vLLM und HuggingFace's Pipelines. Wir untersuchen, wie verschiedene Hyperparameter, die von Entwicklern konfiguriert werden müssen, die Inferenzleistung beeinflussen. Unsere Ergebnisse zeigen, dass die Durchsatzlandschaften unregelmäßig sind, mit deutlichen Spitzen, was die Bedeutung der Hyperparameteroptimierung zur Erzielung maximaler Leistung hervorhebt. Wir zeigen auch, dass die Anwendung von Hyperparameteroptimierung beim Aufrüsten oder Herabstufen des für die Inferenz verwendeten GPU-Modells den Durchsatz von HuggingFace-Pipelines im Durchschnitt um 9,16 % bzw. 13,7 % verbessern kann.
English
The recent surge of open-source large language models (LLMs) enables developers to create AI-based solutions while maintaining control over aspects such as privacy and compliance, thereby providing governance and ownership of the model deployment process. To utilize these LLMs, inference engines are needed. These engines load the model's weights onto available resources, such as GPUs, and process queries to generate responses. The speed of inference, or performance, of the LLM, is critical for real-time applications, as it computes millions or billions of floating point operations per inference. Recently, advanced inference engines such as vLLM have emerged, incorporating novel mechanisms such as efficient memory management to achieve state-of-the-art performance. In this paper, we analyze the performance, particularly the throughput (tokens generated per unit of time), of 20 LLMs using two inference libraries: vLLM and HuggingFace's pipelines. We investigate how various hyperparameters, which developers must configure, influence inference performance. Our results reveal that throughput landscapes are irregular, with distinct peaks, highlighting the importance of hyperparameter optimization to achieve maximum performance. We also show that applying hyperparameter optimization when upgrading or downgrading the GPU model used for inference can improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%, respectively.

Summary

AI-Generated Summary

PDF94November 28, 2024