ChatPaper.aiChatPaper

AlayaDB : Le fondement de données pour une inférence efficace et performante des LLM à contexte long

AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

April 14, 2025
Auteurs: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
cs.AI

Résumé

AlayaDB est un système de base de données vectorielle de pointe, conçu nativement pour une inférence efficace et performante en contexte étendu pour les modèles de langage de grande taille (LLMs) chez AlayaDB AI. Plus précisément, il découple le cache KV et le calcul d'attention des systèmes d'inférence des LLMs, et les encapsule dans un nouveau système de base de données vectorielle. Pour les fournisseurs de Modèle en tant que Service (MaaS), AlayaDB consomme moins de ressources matérielles et offre une meilleure qualité de génération pour diverses charges de travail avec différents types d'Objectifs de Niveau de Service (SLOs), par rapport aux solutions alternatives existantes (par exemple, la dissociation du cache KV, l'attention parcimonieuse basée sur la récupération). L'essence d'AlayaDB réside dans le fait qu'il abstrait le calcul d'attention et la gestion du cache pour l'inférence des LLMs en une procédure de traitement de requêtes, et optimise les performances via un optimiseur de requêtes natif. Dans ce travail, nous démontrons l'efficacité d'AlayaDB à travers (i) trois cas d'utilisation de nos partenaires industriels, et (ii) des résultats expérimentaux approfondis sur des benchmarks d'inférence de LLMs.
English
AlayaDB is a cutting-edge vector database system natively architected for efficient and effective long-context inference for Large Language Models (LLMs) at AlayaDB AI. Specifically, it decouples the KV cache and attention computation from the LLM inference systems, and encapsulates them into a novel vector database system. For the Model as a Service providers (MaaS), AlayaDB consumes fewer hardware resources and offers higher generation quality for various workloads with different kinds of Service Level Objectives (SLOs), when comparing with the existing alternative solutions (e.g., KV cache disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that it abstracts the attention computation and cache management for LLM inference into a query processing procedure, and optimizes the performance via a native query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via (i) three use cases from our industry partners, and (ii) extensive experimental results on LLM inference benchmarks.

Summary

AI-Generated Summary

PDF253April 17, 2025