Efficiënte LLM-planning door middel van leren rangschikken

Samenvatting

Bij inferentie van Large Language Models (LLM) wordt de uitvoerlengte van een LLM-verzoek doorgaans beschouwd als niet a priori bekend. Als gevolg hiervan hanteren de meeste LLM-serversystemen een eenvoudige First-come-first-serve (FCFS) planningsstrategie, wat leidt tot Head-Of-Line (HOL) blokkering en verminderde doorvoer en servicekwaliteit. In dit artikel heroverwegen we deze aanname -- we tonen aan dat, hoewel het voorspellen van de exacte generatielengte van elk verzoek onhaalbaar is, het wel mogelijk is om de relatieve rangschikking van uitvoerlengtes in een batch van verzoeken te voorspellen, door gebruik te maken van leren om te rangschikken. De rangschikkingsinformatie biedt waardevolle richtlijnen voor het plannen van verzoeken. Op basis van dit inzicht ontwikkelen we een nieuwe planner voor LLM-inferentie en -serving die het shortest-job-first (SJF) schema beter kan benaderen dan bestaande benaderingen. We integreren deze planner met het state-of-the-art LLM-serversysteem en tonen aanzienlijke prestatieverbeteringen aan in verschillende belangrijke toepassingen: 2,8x lagere latentie in chatbotserving en 6,5x hogere doorvoer in synthetische datageneratie. Onze code is beschikbaar op https://github.com/hao-ai-lab/vllm-ltr.git.

English

In Large Language Model (LLM) inference, the output length of an LLM request is typically regarded as not known a priori. Consequently, most LLM serving systems employ a simple First-come-first-serve (FCFS) scheduling strategy, leading to Head-Of-Line (HOL) blocking and reduced throughput and service quality. In this paper, we reexamine this assumption -- we show that, although predicting the exact generation length of each request is infeasible, it is possible to predict the relative ranks of output lengths in a batch of requests, using learning to rank. The ranking information offers valuable guidance for scheduling requests. Building on this insight, we develop a novel scheduler for LLM inference and serving that can approximate the shortest-job-first (SJF) schedule better than existing approaches. We integrate this scheduler with the state-of-the-art LLM serving system and show significant performance improvement in several important applications: 2.8x lower latency in chatbot serving and 6.5x higher throughput in synthetic data generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.git

Efficiënte LLM-planning door middel van leren rangschikken

Efficient LLM Scheduling by Learning to Rank

Samenvatting

Summary

Support

Support