MemServe: Кэширование контекста для обслуживания дезагрегированных LLM с эластичным пулом памяти
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool
June 25, 2024
Авторы: Cunchen Hu, Heyang Huang, Junhao Hu, Jiang Xu, Xusheng Chen, Tao Xie, Chenxi Wang, Sa Wang, Yungang Bao, Ninghui Sun, Yizhou Shan
cs.AI
Аннотация
Сервисирование больших языковых моделей (LLM) преобразовалось от бессостоятельных к состоятельным системам, используя техники, такие как кэширование контекста и дезагрегированное вывод. Эти оптимизации увеличивают срок службы и область применения кэша KV, требуя нового архитектурного подхода. Мы представляем MemServe, унифицированную систему, интегрирующую оптимизации как между запросами, так и внутри запросов. MemServe вводит MemPool, эластичный пул памяти, управляющий распределенной памятью и кэшами KV между экземплярами обслуживания. Используя API MemPool, MemServe объединяет кэширование контекста с дезагрегированным выводом впервые, поддерживаемый глобальным планировщиком, который улучшает повторное использование кэша через глобальную политику, основанную на дереве запросов. Тесты показывают, что MemServe значительно улучшает время завершения задачи и время до первого ответа.
English
Large language model (LLM) serving has transformed from stateless to stateful
systems, utilizing techniques like context caching and disaggregated inference.
These optimizations extend the lifespan and domain of the KV cache,
necessitating a new architectural approach. We present MemServe, a unified
system that integrates both inter-request and intra-request optimizations.
MemServe introduces MemPool, an elastic memory pool managing distributed memory
and KV caches across serving instances. Using MemPool APIs, MemServe combines
context caching with disaggregated inference for the first time, supported by a
global scheduler that enhances cache reuse through a global prompt tree-based
locality-aware policy. Tests show that MemServe significantly improves job
completion time and time-to-first-time.Summary
AI-Generated Summary