AlayaDB : Le fondement de données pour une inférence efficace et performante des LLM à contexte long
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
April 14, 2025
Auteurs: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
cs.AI
Résumé
AlayaDB est un système de base de données vectorielle de pointe, conçu nativement pour une inférence efficace et performante en contexte étendu pour les modèles de langage de grande taille (LLMs) chez AlayaDB AI. Plus précisément, il découple le cache KV et le calcul d'attention des systèmes d'inférence des LLMs, et les encapsule dans un nouveau système de base de données vectorielle. Pour les fournisseurs de Modèle en tant que Service (MaaS), AlayaDB consomme moins de ressources matérielles et offre une meilleure qualité de génération pour diverses charges de travail avec différents types d'Objectifs de Niveau de Service (SLOs), par rapport aux solutions alternatives existantes (par exemple, la dissociation du cache KV, l'attention parcimonieuse basée sur la récupération). L'essence d'AlayaDB réside dans le fait qu'il abstrait le calcul d'attention et la gestion du cache pour l'inférence des LLMs en une procédure de traitement de requêtes, et optimise les performances via un optimiseur de requêtes natif. Dans ce travail, nous démontrons l'efficacité d'AlayaDB à travers (i) trois cas d'utilisation de nos partenaires industriels, et (ii) des résultats expérimentaux approfondis sur des benchmarks d'inférence de LLMs.
English
AlayaDB is a cutting-edge vector database system natively architected for
efficient and effective long-context inference for Large Language Models (LLMs)
at AlayaDB AI. Specifically, it decouples the KV cache and attention
computation from the LLM inference systems, and encapsulates them into a novel
vector database system. For the Model as a Service providers (MaaS), AlayaDB
consumes fewer hardware resources and offers higher generation quality for
various workloads with different kinds of Service Level Objectives (SLOs), when
comparing with the existing alternative solutions (e.g., KV cache
disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that
it abstracts the attention computation and cache management for LLM inference
into a query processing procedure, and optimizes the performance via a native
query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via
(i) three use cases from our industry partners, and (ii) extensive experimental
results on LLM inference benchmarks.Summary
AI-Generated Summary