MemServe: Armazenamento em Cache de Contexto para Serviço de Memória LLM Desagregada com Pool de Memória Elástico

Resumo

O serviço de modelos de linguagem de grande escala (LLM) passou de sistemas sem estado para sistemas com estado, utilizando técnicas como armazenamento de contexto e inferência desagregada. Essas otimizações ampliam a vida útil e o domínio do cache KV, exigindo uma nova abordagem arquitetônica. Apresentamos o MemServe, um sistema unificado que integra otimizações entre solicitações e dentro de solicitações. O MemServe introduz o MemPool, um pool de memória elástico que gerencia memória distribuída e caches KV em instâncias de serviço. Usando APIs do MemPool, o MemServe combina armazenamento de contexto com inferência desagregada pela primeira vez, suportado por um escalonador global que aprimora a reutilização de cache por meio de uma política baseada em árvore de prompts globais e consciente da localidade. Testes mostram que o MemServe melhora significativamente o tempo de conclusão do trabalho e o tempo até a primeira resposta.

English

Large language model (LLM) serving has transformed from stateless to stateful systems, utilizing techniques like context caching and disaggregated inference. These optimizations extend the lifespan and domain of the KV cache, necessitating a new architectural approach. We present MemServe, a unified system that integrates both inter-request and intra-request optimizations. MemServe introduces MemPool, an elastic memory pool managing distributed memory and KV caches across serving instances. Using MemPool APIs, MemServe combines context caching with disaggregated inference for the first time, supported by a global scheduler that enhances cache reuse through a global prompt tree-based locality-aware policy. Tests show that MemServe significantly improves job completion time and time-to-first-time.

MemServe: Armazenamento em Cache de Contexto para Serviço de Memória LLM Desagregada com Pool de Memória Elástico

MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

Resumo

Support