ChatPaper.aiChatPaper

AlayaDB: Основа данных для эффективного и производительного вывода LLM с длинным контекстом

AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

April 14, 2025
Авторы: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
cs.AI

Аннотация

AlayaDB — это передовая система векторной базы данных, изначально разработанная для эффективного и производительного выполнения выводов с длинным контекстом для крупных языковых моделей (LLM) в AlayaDB AI. В частности, она отделяет кэш ключ-значение (KV) и вычисления внимания от систем вывода LLM, инкапсулируя их в новую систему векторной базы данных. Для поставщиков моделей как услуги (MaaS) AlayaDB потребляет меньше аппаратных ресурсов и обеспечивает более высокое качество генерации для различных рабочих нагрузок с различными целями уровня обслуживания (SLO) по сравнению с существующими альтернативными решениями (например, разделение кэша KV, разреженное внимание на основе извлечения). Ключевая идея AlayaDB заключается в том, что она абстрагирует вычисления внимания и управление кэшем для вывода LLM в процедуру обработки запросов и оптимизирует производительность с помощью встроенного оптимизатора запросов. В данной работе мы демонстрируем эффективность AlayaDB через (i) три примера использования от наших индустриальных партнеров и (ii) обширные экспериментальные результаты на бенчмарках вывода LLM.
English
AlayaDB is a cutting-edge vector database system natively architected for efficient and effective long-context inference for Large Language Models (LLMs) at AlayaDB AI. Specifically, it decouples the KV cache and attention computation from the LLM inference systems, and encapsulates them into a novel vector database system. For the Model as a Service providers (MaaS), AlayaDB consumes fewer hardware resources and offers higher generation quality for various workloads with different kinds of Service Level Objectives (SLOs), when comparing with the existing alternative solutions (e.g., KV cache disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that it abstracts the attention computation and cache management for LLM inference into a query processing procedure, and optimizes the performance via a native query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via (i) three use cases from our industry partners, and (ii) extensive experimental results on LLM inference benchmarks.

Summary

AI-Generated Summary

PDF253April 17, 2025