MemServe: Armazenamento em Cache de Contexto para Serviço de Memória LLM Desagregada com Pool de Memória Elástico
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool
June 25, 2024
Autores: Cunchen Hu, Heyang Huang, Junhao Hu, Jiang Xu, Xusheng Chen, Tao Xie, Chenxi Wang, Sa Wang, Yungang Bao, Ninghui Sun, Yizhou Shan
cs.AI
Resumo
O serviço de modelos de linguagem de grande escala (LLM) passou de sistemas sem estado para sistemas com estado, utilizando técnicas como armazenamento de contexto e inferência desagregada. Essas otimizações ampliam a vida útil e o domínio do cache KV, exigindo uma nova abordagem arquitetônica. Apresentamos o MemServe, um sistema unificado que integra otimizações entre solicitações e dentro de solicitações. O MemServe introduz o MemPool, um pool de memória elástico que gerencia memória distribuída e caches KV em instâncias de serviço. Usando APIs do MemPool, o MemServe combina armazenamento de contexto com inferência desagregada pela primeira vez, suportado por um escalonador global que aprimora a reutilização de cache por meio de uma política baseada em árvore de prompts globais e consciente da localidade. Testes mostram que o MemServe melhora significativamente o tempo de conclusão do trabalho e o tempo até a primeira resposta.
English
Large language model (LLM) serving has transformed from stateless to stateful
systems, utilizing techniques like context caching and disaggregated inference.
These optimizations extend the lifespan and domain of the KV cache,
necessitating a new architectural approach. We present MemServe, a unified
system that integrates both inter-request and intra-request optimizations.
MemServe introduces MemPool, an elastic memory pool managing distributed memory
and KV caches across serving instances. Using MemPool APIs, MemServe combines
context caching with disaggregated inference for the first time, supported by a
global scheduler that enhances cache reuse through a global prompt tree-based
locality-aware policy. Tests show that MemServe significantly improves job
completion time and time-to-first-time.