Эффективное планирование LLM с помощью обучения ранжированию.

Аннотация

При выводе больших языковых моделей (LLM) длина вывода запроса LLM обычно считается неизвестной заранее. Следовательно, большинство систем обслуживания LLM используют простую стратегию планирования "первым пришел - первым обслужен" (FCFS), что приводит к блокировке "голова линии" (HOL) и снижению пропускной способности и качества обслуживания. В данной статье мы переосмысливаем это предположение - мы показываем, что хотя предсказать точную длину генерации каждого запроса невозможно, можно предсказать относительные ранги длин вывода в пакете запросов, используя обучение для ранжирования. Информация о ранжировании предоставляет ценное руководство для планирования запросов. Основываясь на этом понимании, мы разрабатываем новый планировщик для вывода и обслуживания LLM, который может лучше приблизиться к расписанию "сначала самое короткое задание" (SJF) по сравнению с существующими подходами. Мы интегрируем этот планировщик с передовой системой обслуживания LLM и показываем значительное улучшение производительности в нескольких важных приложениях: на 2,8 раза меньшая задержка при обслуживании чат-ботов и на 6,5 раза большая пропускная способность при генерации синтетических данных. Наш код доступен по адресу https://github.com/hao-ai-lab/vllm-ltr.git

English

In Large Language Model (LLM) inference, the output length of an LLM request is typically regarded as not known a priori. Consequently, most LLM serving systems employ a simple First-come-first-serve (FCFS) scheduling strategy, leading to Head-Of-Line (HOL) blocking and reduced throughput and service quality. In this paper, we reexamine this assumption -- we show that, although predicting the exact generation length of each request is infeasible, it is possible to predict the relative ranks of output lengths in a batch of requests, using learning to rank. The ranking information offers valuable guidance for scheduling requests. Building on this insight, we develop a novel scheduler for LLM inference and serving that can approximate the shortest-job-first (SJF) schedule better than existing approaches. We integrate this scheduler with the state-of-the-art LLM serving system and show significant performance improvement in several important applications: 2.8x lower latency in chatbot serving and 6.5x higher throughput in synthetic data generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.git

Эффективное планирование LLM с помощью обучения ранжированию.

Efficient LLM Scheduling by Learning to Rank

Аннотация

Support