Agendamento Eficiente de LLM Através de Aprendizado para Classificação

Resumo

Na inferência de Modelos de Linguagem de Grande Escala (LLM), o comprimento de saída de uma solicitação de LLM é geralmente considerado como desconhecido a priori. Consequentemente, a maioria dos sistemas de LLM em funcionamento emprega uma estratégia de agendamento simples de Primeiro a Chegar, Primeiro a Ser Servido (FCFS), resultando em bloqueio de Cabeça de Linha (HOL) e redução na taxa de transferência e qualidade do serviço. Neste artigo, reexaminamos essa suposição - mostramos que, embora prever o comprimento exato de geração de cada solicitação seja inviável, é possível prever as classificações relativas dos comprimentos de saída em um lote de solicitações, utilizando aprendizado para classificação. As informações de classificação oferecem orientação valiosa para o agendamento de solicitações. Com base nessa percepção, desenvolvemos um novo agendador para inferência e operação de LLM que pode aproximar melhor o agendamento do menor trabalho primeiro (SJF) do que as abordagens existentes. Integramos esse agendador com o sistema de operação de LLM de última geração e demonstramos uma melhoria significativa de desempenho em várias aplicações importantes: redução de 2,8 vezes na latência no atendimento de chatbots e aumento de 6,5 vezes na taxa de transferência na geração de dados sintéticos. Nosso código está disponível em https://github.com/hao-ai-lab/vllm-ltr.git

English

In Large Language Model (LLM) inference, the output length of an LLM request is typically regarded as not known a priori. Consequently, most LLM serving systems employ a simple First-come-first-serve (FCFS) scheduling strategy, leading to Head-Of-Line (HOL) blocking and reduced throughput and service quality. In this paper, we reexamine this assumption -- we show that, although predicting the exact generation length of each request is infeasible, it is possible to predict the relative ranks of output lengths in a batch of requests, using learning to rank. The ranking information offers valuable guidance for scheduling requests. Building on this insight, we develop a novel scheduler for LLM inference and serving that can approximate the shortest-job-first (SJF) schedule better than existing approaches. We integrate this scheduler with the state-of-the-art LLM serving system and show significant performance improvement in several important applications: 2.8x lower latency in chatbot serving and 6.5x higher throughput in synthetic data generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.git

Agendamento Eficiente de LLM Através de Aprendizado para Classificação

Efficient LLM Scheduling by Learning to Rank

Resumo

Summary

Support

Support