Die Auswirkungen von Hyperparametern auf die Leistung der Inferenz großer Sprachmodelle: Eine Bewertung von vLLM und HuggingFace Pipelines.
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines
August 2, 2024
Autoren: Matias Martinez
cs.AI
Zusammenfassung
Der kürzliche Anstieg von Open-Source Large Language Models (LLMs) ermöglicht es Entwicklern, KI-basierte Lösungen zu erstellen, während sie die Kontrolle über Aspekte wie Datenschutz und Konformität behalten, wodurch Governance und Eigentum des Modellbereitstellungsprozesses gewährleistet werden. Um diese LLMs zu nutzen, werden Inferenz-Engines benötigt. Diese Engines laden die Gewichte des Modells auf verfügbare Ressourcen wie GPUs und verarbeiten Anfragen, um Antworten zu generieren. Die Geschwindigkeit der Inferenz oder Leistung des LLM ist für Echtzeit-Anwendungen entscheidend, da sie Millionen oder Milliarden von Gleitkommaoperationen pro Inferenz berechnet. In letzter Zeit sind fortschrittliche Inferenz-Engines wie vLLM aufgetaucht, die neuartige Mechanismen wie effizientes Speichermanagement integrieren, um eine Spitzenleistung zu erreichen. In diesem Papier analysieren wir die Leistung, insbesondere den Durchsatz (generierte Tokens pro Zeiteinheit), von 20 LLMs unter Verwendung von zwei Inferenz-Bibliotheken: vLLM und HuggingFace's Pipelines. Wir untersuchen, wie verschiedene Hyperparameter, die von Entwicklern konfiguriert werden müssen, die Inferenzleistung beeinflussen. Unsere Ergebnisse zeigen, dass die Durchsatzlandschaften unregelmäßig sind, mit deutlichen Spitzen, was die Bedeutung der Hyperparameteroptimierung zur Erzielung maximaler Leistung hervorhebt. Wir zeigen auch, dass die Anwendung von Hyperparameteroptimierung beim Aufrüsten oder Herabstufen des für die Inferenz verwendeten GPU-Modells den Durchsatz von HuggingFace-Pipelines im Durchschnitt um 9,16 % bzw. 13,7 % verbessern kann.
English
The recent surge of open-source large language models (LLMs) enables
developers to create AI-based solutions while maintaining control over aspects
such as privacy and compliance, thereby providing governance and ownership of
the model deployment process. To utilize these LLMs, inference engines are
needed. These engines load the model's weights onto available resources, such
as GPUs, and process queries to generate responses. The speed of inference, or
performance, of the LLM, is critical for real-time applications, as it computes
millions or billions of floating point operations per inference. Recently,
advanced inference engines such as vLLM have emerged, incorporating novel
mechanisms such as efficient memory management to achieve state-of-the-art
performance. In this paper, we analyze the performance, particularly the
throughput (tokens generated per unit of time), of 20 LLMs using two inference
libraries: vLLM and HuggingFace's pipelines. We investigate how various
hyperparameters, which developers must configure, influence inference
performance. Our results reveal that throughput landscapes are irregular, with
distinct peaks, highlighting the importance of hyperparameter optimization to
achieve maximum performance. We also show that applying hyperparameter
optimization when upgrading or downgrading the GPU model used for inference can
improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%,
respectively.Summary
AI-Generated Summary