Programación eficiente de LLM mediante aprendizaje para clasificar.

Resumen

En la inferencia de Modelos de Lenguaje a Gran Escala (LLM), la longitud de salida de una solicitud de LLM generalmente se considera desconocida de antemano. En consecuencia, la mayoría de los sistemas de servicio de LLM emplean una estrategia de programación simple de Primero en llegar, primero en ser atendido (FCFS), lo que conduce a bloqueos de Cabecera de Línea (HOL) y a una reducción en el rendimiento y la calidad del servicio. En este documento, reexaminamos esta suposición -- mostramos que, aunque predecir la longitud exacta de generación de cada solicitud es inviable, es posible predecir los rangos relativos de las longitudes de salida en un lote de solicitudes, utilizando aprendizaje para clasificar. La información de clasificación ofrece una guía valiosa para programar las solicitudes. Basándonos en esta percepción, desarrollamos un programador novedoso para la inferencia y el servicio de LLM que puede aproximar mejor el esquema de programación del trabajo más corto primero (SJF) que los enfoques existentes. Integrando este programador con el sistema de servicio de LLM de vanguardia, demostramos una mejora significativa en el rendimiento en varias aplicaciones importantes: una reducción del 2.8 veces en la latencia en el servicio de chatbot y un aumento del 6.5 veces en el rendimiento en la generación de datos sintéticos. Nuestro código está disponible en https://github.com/hao-ai-lab/vllm-ltr.git

English

In Large Language Model (LLM) inference, the output length of an LLM request is typically regarded as not known a priori. Consequently, most LLM serving systems employ a simple First-come-first-serve (FCFS) scheduling strategy, leading to Head-Of-Line (HOL) blocking and reduced throughput and service quality. In this paper, we reexamine this assumption -- we show that, although predicting the exact generation length of each request is infeasible, it is possible to predict the relative ranks of output lengths in a batch of requests, using learning to rank. The ranking information offers valuable guidance for scheduling requests. Building on this insight, we develop a novel scheduler for LLM inference and serving that can approximate the shortest-job-first (SJF) schedule better than existing approaches. We integrate this scheduler with the state-of-the-art LLM serving system and show significant performance improvement in several important applications: 2.8x lower latency in chatbot serving and 6.5x higher throughput in synthetic data generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.git

Programación eficiente de LLM mediante aprendizaje para clasificar.

Efficient LLM Scheduling by Learning to Rank

Resumen

Support