AlayaDB: Основа данных для эффективного и производительного вывода LLM с длинным контекстом
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
April 14, 2025
Авторы: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
cs.AI
Аннотация
AlayaDB — это передовая система векторной базы данных, изначально разработанная для эффективного и производительного выполнения выводов с длинным контекстом для крупных языковых моделей (LLM) в AlayaDB AI. В частности, она отделяет кэш ключ-значение (KV) и вычисления внимания от систем вывода LLM, инкапсулируя их в новую систему векторной базы данных. Для поставщиков моделей как услуги (MaaS) AlayaDB потребляет меньше аппаратных ресурсов и обеспечивает более высокое качество генерации для различных рабочих нагрузок с различными целями уровня обслуживания (SLO) по сравнению с существующими альтернативными решениями (например, разделение кэша KV, разреженное внимание на основе извлечения). Ключевая идея AlayaDB заключается в том, что она абстрагирует вычисления внимания и управление кэшем для вывода LLM в процедуру обработки запросов и оптимизирует производительность с помощью встроенного оптимизатора запросов. В данной работе мы демонстрируем эффективность AlayaDB через (i) три примера использования от наших индустриальных партнеров и (ii) обширные экспериментальные результаты на бенчмарках вывода LLM.
English
AlayaDB is a cutting-edge vector database system natively architected for
efficient and effective long-context inference for Large Language Models (LLMs)
at AlayaDB AI. Specifically, it decouples the KV cache and attention
computation from the LLM inference systems, and encapsulates them into a novel
vector database system. For the Model as a Service providers (MaaS), AlayaDB
consumes fewer hardware resources and offers higher generation quality for
various workloads with different kinds of Service Level Objectives (SLOs), when
comparing with the existing alternative solutions (e.g., KV cache
disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that
it abstracts the attention computation and cache management for LLM inference
into a query processing procedure, and optimizes the performance via a native
query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via
(i) three use cases from our industry partners, and (ii) extensive experimental
results on LLM inference benchmarks.Summary
AI-Generated Summary