MemServe : Mise en cache contextuel pour le service de LLM désagrégé avec un pool de mémoire élastique
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool
June 25, 2024
Auteurs: Cunchen Hu, Heyang Huang, Junhao Hu, Jiang Xu, Xusheng Chen, Tao Xie, Chenxi Wang, Sa Wang, Yungang Bao, Ninghui Sun, Yizhou Shan
cs.AI
Résumé
Le service des grands modèles de langage (LLM) est passé de systèmes sans état à des systèmes avec état, en utilisant des techniques telles que la mise en cache de contexte et l'inférence désagrégée. Ces optimisations prolongent la durée de vie et le domaine du cache KV, nécessitant une nouvelle approche architecturale. Nous présentons MemServe, un système unifié qui intègre à la fois des optimisations inter-requêtes et intra-requêtes. MemServe introduit MemPool, un pool de mémoire élastique gérant la mémoire distribuée et les caches KV à travers les instances de service. En utilisant les API de MemPool, MemServe combine pour la première fois la mise en cache de contexte avec l'inférence désagrégée, soutenu par un planificateur global qui améliore la réutilisation du cache grâce à une politique de localité basée sur un arbre de prompts global. Les tests montrent que MemServe améliore significativement le temps d'exécution des tâches et le temps jusqu'au premier résultat.
English
Large language model (LLM) serving has transformed from stateless to stateful
systems, utilizing techniques like context caching and disaggregated inference.
These optimizations extend the lifespan and domain of the KV cache,
necessitating a new architectural approach. We present MemServe, a unified
system that integrates both inter-request and intra-request optimizations.
MemServe introduces MemPool, an elastic memory pool managing distributed memory
and KV caches across serving instances. Using MemPool APIs, MemServe combines
context caching with disaggregated inference for the first time, supported by a
global scheduler that enhances cache reuse through a global prompt tree-based
locality-aware policy. Tests show that MemServe significantly improves job
completion time and time-to-first-time.Summary
AI-Generated Summary