Programación eficiente de LLM mediante aprendizaje para clasificar.
Efficient LLM Scheduling by Learning to Rank
August 28, 2024
Autores: Yichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang
cs.AI
Resumen
En la inferencia de Modelos de Lenguaje a Gran Escala (LLM), la longitud de salida de una solicitud de LLM generalmente se considera desconocida de antemano. En consecuencia, la mayoría de los sistemas de servicio de LLM emplean una estrategia de programación simple de Primero en llegar, primero en ser atendido (FCFS), lo que conduce a bloqueos de Cabecera de Línea (HOL) y a una reducción en el rendimiento y la calidad del servicio. En este documento, reexaminamos esta suposición -- mostramos que, aunque predecir la longitud exacta de generación de cada solicitud es inviable, es posible predecir los rangos relativos de las longitudes de salida en un lote de solicitudes, utilizando aprendizaje para clasificar. La información de clasificación ofrece una guía valiosa para programar las solicitudes. Basándonos en esta percepción, desarrollamos un programador novedoso para la inferencia y el servicio de LLM que puede aproximar mejor el esquema de programación del trabajo más corto primero (SJF) que los enfoques existentes. Integrando este programador con el sistema de servicio de LLM de vanguardia, demostramos una mejora significativa en el rendimiento en varias aplicaciones importantes: una reducción del 2.8 veces en la latencia en el servicio de chatbot y un aumento del 6.5 veces en el rendimiento en la generación de datos sintéticos. Nuestro código está disponible en https://github.com/hao-ai-lab/vllm-ltr.git
English
In Large Language Model (LLM) inference, the output length of an LLM request
is typically regarded as not known a priori. Consequently, most LLM serving
systems employ a simple First-come-first-serve (FCFS) scheduling strategy,
leading to Head-Of-Line (HOL) blocking and reduced throughput and service
quality. In this paper, we reexamine this assumption -- we show that, although
predicting the exact generation length of each request is infeasible, it is
possible to predict the relative ranks of output lengths in a batch of
requests, using learning to rank. The ranking information offers valuable
guidance for scheduling requests. Building on this insight, we develop a novel
scheduler for LLM inference and serving that can approximate the
shortest-job-first (SJF) schedule better than existing approaches. We integrate
this scheduler with the state-of-the-art LLM serving system and show
significant performance improvement in several important applications: 2.8x
lower latency in chatbot serving and 6.5x higher throughput in synthetic data
generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.gitSummary
AI-Generated Summary