Agendamento Eficiente de LLM Através de Aprendizado para Classificação
Efficient LLM Scheduling by Learning to Rank
August 28, 2024
Autores: Yichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang
cs.AI
Resumo
Na inferência de Modelos de Linguagem de Grande Escala (LLM), o comprimento de saída de uma solicitação de LLM é geralmente considerado como desconhecido a priori. Consequentemente, a maioria dos sistemas de LLM em funcionamento emprega uma estratégia de agendamento simples de Primeiro a Chegar, Primeiro a Ser Servido (FCFS), resultando em bloqueio de Cabeça de Linha (HOL) e redução na taxa de transferência e qualidade do serviço. Neste artigo, reexaminamos essa suposição - mostramos que, embora prever o comprimento exato de geração de cada solicitação seja inviável, é possível prever as classificações relativas dos comprimentos de saída em um lote de solicitações, utilizando aprendizado para classificação. As informações de classificação oferecem orientação valiosa para o agendamento de solicitações. Com base nessa percepção, desenvolvemos um novo agendador para inferência e operação de LLM que pode aproximar melhor o agendamento do menor trabalho primeiro (SJF) do que as abordagens existentes. Integramos esse agendador com o sistema de operação de LLM de última geração e demonstramos uma melhoria significativa de desempenho em várias aplicações importantes: redução de 2,8 vezes na latência no atendimento de chatbots e aumento de 6,5 vezes na taxa de transferência na geração de dados sintéticos. Nosso código está disponível em https://github.com/hao-ai-lab/vllm-ltr.git
English
In Large Language Model (LLM) inference, the output length of an LLM request
is typically regarded as not known a priori. Consequently, most LLM serving
systems employ a simple First-come-first-serve (FCFS) scheduling strategy,
leading to Head-Of-Line (HOL) blocking and reduced throughput and service
quality. In this paper, we reexamine this assumption -- we show that, although
predicting the exact generation length of each request is infeasible, it is
possible to predict the relative ranks of output lengths in a batch of
requests, using learning to rank. The ranking information offers valuable
guidance for scheduling requests. Building on this insight, we develop a novel
scheduler for LLM inference and serving that can approximate the
shortest-job-first (SJF) schedule better than existing approaches. We integrate
this scheduler with the state-of-the-art LLM serving system and show
significant performance improvement in several important applications: 2.8x
lower latency in chatbot serving and 6.5x higher throughput in synthetic data
generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.gitSummary
AI-Generated Summary