ChatPaper.aiChatPaper

O Impacto dos Hiperparâmetros no Desempenho da Inferência de Modelos de Linguagem de Grande Escala: Uma Avaliação dos Pipelines vLLM e HuggingFace

The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

August 2, 2024
Autores: Matias Martinez
cs.AI

Resumo

O recente aumento dos modelos de linguagem grandes (LLMs) de código aberto permite aos desenvolvedores criar soluções baseadas em IA mantendo o controle sobre aspectos como privacidade e conformidade, fornecendo assim governança e propriedade do processo de implantação do modelo. Para utilizar esses LLMs, são necessários motores de inferência. Esses motores carregam os pesos do modelo nos recursos disponíveis, como GPUs, e processam consultas para gerar respostas. A velocidade da inferência, ou desempenho, do LLM é crucial para aplicações em tempo real, pois calcula milhões ou bilhões de operações de ponto flutuante por inferência. Recentemente, motores de inferência avançados, como o vLLM, surgiram, incorporando mecanismos inovadores, como gerenciamento eficiente de memória, para alcançar um desempenho de ponta. Neste artigo, analisamos o desempenho, especialmente o throughput (tokens gerados por unidade de tempo), de 20 LLMs usando duas bibliotecas de inferência: vLLM e pipelines da HuggingFace. Investigamos como vários hiperparâmetros, que os desenvolvedores devem configurar, influenciam o desempenho da inferência. Nossos resultados revelam que as paisagens de throughput são irregulares, com picos distintos, destacando a importância da otimização de hiperparâmetros para alcançar o desempenho máximo. Também mostramos que a aplicação de otimização de hiperparâmetros ao atualizar ou rebaixar o modelo de GPU usado para inferência pode melhorar o throughput dos pipelines da HuggingFace em uma média de 9,16% e 13,7%, respectivamente.
English
The recent surge of open-source large language models (LLMs) enables developers to create AI-based solutions while maintaining control over aspects such as privacy and compliance, thereby providing governance and ownership of the model deployment process. To utilize these LLMs, inference engines are needed. These engines load the model's weights onto available resources, such as GPUs, and process queries to generate responses. The speed of inference, or performance, of the LLM, is critical for real-time applications, as it computes millions or billions of floating point operations per inference. Recently, advanced inference engines such as vLLM have emerged, incorporating novel mechanisms such as efficient memory management to achieve state-of-the-art performance. In this paper, we analyze the performance, particularly the throughput (tokens generated per unit of time), of 20 LLMs using two inference libraries: vLLM and HuggingFace's pipelines. We investigate how various hyperparameters, which developers must configure, influence inference performance. Our results reveal that throughput landscapes are irregular, with distinct peaks, highlighting the importance of hyperparameter optimization to achieve maximum performance. We also show that applying hyperparameter optimization when upgrading or downgrading the GPU model used for inference can improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%, respectively.

Summary

AI-Generated Summary

PDF94November 28, 2024