AlayaDB: La base de datos para una inferencia eficiente y efectiva en LLM de contexto largo
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
April 14, 2025
Autores: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
cs.AI
Resumen
AlayaDB es un sistema de base de datos vectorial de vanguardia diseñado nativamente para realizar inferencias eficientes y efectivas de contexto largo en Modelos de Lenguaje a Gran Escala (LLMs) en AlayaDB AI. Específicamente, desacopla la caché KV y el cálculo de atención de los sistemas de inferencia de LLMs, encapsulándolos en un novedoso sistema de base de datos vectorial. Para los proveedores de Modelo como Servicio (MaaS), AlayaDB consume menos recursos de hardware y ofrece una mayor calidad de generación para diversas cargas de trabajo con diferentes tipos de Objetivos de Nivel de Servicio (SLOs), en comparación con las soluciones alternativas existentes (por ejemplo, desagregación de caché KV, atención dispersa basada en recuperación). La clave de AlayaDB radica en que abstrae el cálculo de atención y la gestión de caché para la inferencia de LLMs en un procedimiento de procesamiento de consultas, y optimiza el rendimiento mediante un optimizador de consultas nativo. En este trabajo, demostramos la efectividad de AlayaDB a través de (i) tres casos de uso de nuestros socios industriales, y (ii) resultados experimentales exhaustivos en benchmarks de inferencia de LLMs.
English
AlayaDB is a cutting-edge vector database system natively architected for
efficient and effective long-context inference for Large Language Models (LLMs)
at AlayaDB AI. Specifically, it decouples the KV cache and attention
computation from the LLM inference systems, and encapsulates them into a novel
vector database system. For the Model as a Service providers (MaaS), AlayaDB
consumes fewer hardware resources and offers higher generation quality for
various workloads with different kinds of Service Level Objectives (SLOs), when
comparing with the existing alternative solutions (e.g., KV cache
disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that
it abstracts the attention computation and cache management for LLM inference
into a query processing procedure, and optimizes the performance via a native
query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via
(i) three use cases from our industry partners, and (ii) extensive experimental
results on LLM inference benchmarks.Summary
AI-Generated Summary