MemServe : Mise en cache contextuel pour le service de LLM désagrégé avec un pool de mémoire élastique

Résumé

Le service des grands modèles de langage (LLM) est passé de systèmes sans état à des systèmes avec état, en utilisant des techniques telles que la mise en cache de contexte et l'inférence désagrégée. Ces optimisations prolongent la durée de vie et le domaine du cache KV, nécessitant une nouvelle approche architecturale. Nous présentons MemServe, un système unifié qui intègre à la fois des optimisations inter-requêtes et intra-requêtes. MemServe introduit MemPool, un pool de mémoire élastique gérant la mémoire distribuée et les caches KV à travers les instances de service. En utilisant les API de MemPool, MemServe combine pour la première fois la mise en cache de contexte avec l'inférence désagrégée, soutenu par un planificateur global qui améliore la réutilisation du cache grâce à une politique de localité basée sur un arbre de prompts global. Les tests montrent que MemServe améliore significativement le temps d'exécution des tâches et le temps jusqu'au premier résultat.

English

Large language model (LLM) serving has transformed from stateless to stateful systems, utilizing techniques like context caching and disaggregated inference. These optimizations extend the lifespan and domain of the KV cache, necessitating a new architectural approach. We present MemServe, a unified system that integrates both inter-request and intra-request optimizations. MemServe introduces MemPool, an elastic memory pool managing distributed memory and KV caches across serving instances. Using MemPool APIs, MemServe combines context caching with disaggregated inference for the first time, supported by a global scheduler that enhances cache reuse through a global prompt tree-based locality-aware policy. Tests show that MemServe significantly improves job completion time and time-to-first-time.

MemServe : Mise en cache contextuel pour le service de LLM désagrégé avec un pool de mémoire élastique

MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

Résumé

Support