ChatPaper.aiChatPaper

AlayaDB: La base de datos para una inferencia eficiente y efectiva en LLM de contexto largo

AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

April 14, 2025
Autores: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
cs.AI

Resumen

AlayaDB es un sistema de base de datos vectorial de vanguardia diseñado nativamente para realizar inferencias eficientes y efectivas de contexto largo en Modelos de Lenguaje a Gran Escala (LLMs) en AlayaDB AI. Específicamente, desacopla la caché KV y el cálculo de atención de los sistemas de inferencia de LLMs, encapsulándolos en un novedoso sistema de base de datos vectorial. Para los proveedores de Modelo como Servicio (MaaS), AlayaDB consume menos recursos de hardware y ofrece una mayor calidad de generación para diversas cargas de trabajo con diferentes tipos de Objetivos de Nivel de Servicio (SLOs), en comparación con las soluciones alternativas existentes (por ejemplo, desagregación de caché KV, atención dispersa basada en recuperación). La clave de AlayaDB radica en que abstrae el cálculo de atención y la gestión de caché para la inferencia de LLMs en un procedimiento de procesamiento de consultas, y optimiza el rendimiento mediante un optimizador de consultas nativo. En este trabajo, demostramos la efectividad de AlayaDB a través de (i) tres casos de uso de nuestros socios industriales, y (ii) resultados experimentales exhaustivos en benchmarks de inferencia de LLMs.
English
AlayaDB is a cutting-edge vector database system natively architected for efficient and effective long-context inference for Large Language Models (LLMs) at AlayaDB AI. Specifically, it decouples the KV cache and attention computation from the LLM inference systems, and encapsulates them into a novel vector database system. For the Model as a Service providers (MaaS), AlayaDB consumes fewer hardware resources and offers higher generation quality for various workloads with different kinds of Service Level Objectives (SLOs), when comparing with the existing alternative solutions (e.g., KV cache disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that it abstracts the attention computation and cache management for LLM inference into a query processing procedure, and optimizes the performance via a native query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via (i) three use cases from our industry partners, and (ii) extensive experimental results on LLM inference benchmarks.

Summary

AI-Generated Summary

PDF253April 17, 2025