ChatPaper.aiChatPaper

AlayaDB: De Datafundering voor Efficiënte en Effectieve Inferentie van LLM's met Lange Context

AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

April 14, 2025
Auteurs: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
cs.AI

Samenvatting

AlayaDB is een geavanceerd vectordatabase-systeem dat van oorsprong is ontworpen voor efficiënte en effectieve inferentie met lange contexten voor Large Language Models (LLM's) bij AlayaDB AI. Specifiek ontkoppelt het de KV-cache en aandachtberekening van de LLM-inferentiesystemen en integreert deze in een innovatief vectordatabase-systeem. Voor Model as a Service-aanbieders (MaaS) verbruikt AlayaDB minder hardwarebronnen en biedt het een hogere generatiekwaliteit voor diverse workloads met verschillende soorten Service Level Objectives (SLO's), vergeleken met bestaande alternatieve oplossingen (bijv. KV-cache-disaggregatie, retrieval-based sparse attention). De kern van AlayaDB is dat het de aandachtberekening en cachebeheer voor LLM-inferentie abstraheert naar een queryverwerkingsprocedure en de prestaties optimaliseert via een native query-optimizer. In dit werk demonstreren we de effectiviteit van AlayaDB via (i) drie use cases van onze industriële partners en (ii) uitgebreide experimentele resultaten op LLM-inferentiebenchmarks.
English
AlayaDB is a cutting-edge vector database system natively architected for efficient and effective long-context inference for Large Language Models (LLMs) at AlayaDB AI. Specifically, it decouples the KV cache and attention computation from the LLM inference systems, and encapsulates them into a novel vector database system. For the Model as a Service providers (MaaS), AlayaDB consumes fewer hardware resources and offers higher generation quality for various workloads with different kinds of Service Level Objectives (SLOs), when comparing with the existing alternative solutions (e.g., KV cache disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that it abstracts the attention computation and cache management for LLM inference into a query processing procedure, and optimizes the performance via a native query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via (i) three use cases from our industry partners, and (ii) extensive experimental results on LLM inference benchmarks.

Summary

AI-Generated Summary

PDF253April 17, 2025