Влияние гиперпараметров на производительность вывода больших языковых моделей: оценка конвейеров vLLM и HuggingFace
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines
August 2, 2024
Авторы: Matias Martinez
cs.AI
Аннотация
Недавний всплеск открытых крупных языковых моделей (LLM) позволяет разработчикам создавать решения на основе искусственного интеллекта, сохраняя контроль над аспектами, такими как конфиденциальность и соответствие, обеспечивая тем самым управление и владение процессом развертывания модели. Для использования этих LLM необходимы механизмы вывода. Эти механизмы загружают веса модели на доступные ресурсы, такие как графические процессоры, и обрабатывают запросы для генерации ответов. Скорость вывода, или производительность, LLM критически важна для приложений реального времени, поскольку она вычисляет миллионы или миллиарды операций с плавающей запятой на каждый вывод. Недавно появились передовые механизмы вывода, такие как vLLM, включающие новаторские механизмы, такие как эффективное управление памятью, для достижения передовой производительности. В данной статье мы анализируем производительность, в частности пропускную способность (токены, сгенерированные за единицу времени), 20 LLM с использованием двух библиотек вывода: vLLM и конвейеров HuggingFace. Мы исследуем, как различные гиперпараметры, которые разработчики должны настраивать, влияют на производительность вывода. Наши результаты показывают, что ландшафты пропускной способности нерегулярны, с выраженными пиками, подчеркивая важность оптимизации гиперпараметров для достижения максимальной производительности. Мы также показываем, что применение оптимизации гиперпараметров при обновлении или понижении используемой для вывода модели GPU может улучшить пропускную способность от конвейеров HuggingFace в среднем на 9,16% и 13,7% соответственно.
English
The recent surge of open-source large language models (LLMs) enables
developers to create AI-based solutions while maintaining control over aspects
such as privacy and compliance, thereby providing governance and ownership of
the model deployment process. To utilize these LLMs, inference engines are
needed. These engines load the model's weights onto available resources, such
as GPUs, and process queries to generate responses. The speed of inference, or
performance, of the LLM, is critical for real-time applications, as it computes
millions or billions of floating point operations per inference. Recently,
advanced inference engines such as vLLM have emerged, incorporating novel
mechanisms such as efficient memory management to achieve state-of-the-art
performance. In this paper, we analyze the performance, particularly the
throughput (tokens generated per unit of time), of 20 LLMs using two inference
libraries: vLLM and HuggingFace's pipelines. We investigate how various
hyperparameters, which developers must configure, influence inference
performance. Our results reveal that throughput landscapes are irregular, with
distinct peaks, highlighting the importance of hyperparameter optimization to
achieve maximum performance. We also show that applying hyperparameter
optimization when upgrading or downgrading the GPU model used for inference can
improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%,
respectively.Summary
AI-Generated Summary