TeleRAG: Generación Aumentada por Recuperación Eficiente con Recuperación Anticipada
TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval
February 28, 2025
Autores: Chien-Yu Lin, Keisuke Kamahori, Yiyu Liu, Xiaoxiang Shi, Madhav Kashyap, Yile Gu, Rulin Shao, Zihao Ye, Kan Zhu, Stephanie Wang, Arvind Krishnamurthy, Rohan Kadekodi, Luis Ceze, Baris Kasikci
cs.AI
Resumen
La generación aumentada por recuperación (RAG, por sus siglas en inglés) amplía los modelos de lenguaje de gran escala (LLMs) con fuentes de datos externas para mejorar la precisión factual y la cobertura de dominio. Las pipelines modernas de RAG dependen de grandes almacenes de datos, lo que genera desafíos en sistemas con requisitos de baja latencia, especialmente cuando la memoria de GPU disponible es limitada. Para abordar estos desafíos, proponemos TeleRAG, un sistema de inferencia eficiente que reduce la latencia de RAG con requisitos mínimos de memoria de GPU. La innovación central de TeleRAG es la recuperación anticipada, un mecanismo de prefetching que anticipa los datos necesarios y los transfiere de la CPU a la GPU en paralelo con la generación del LLM. Al aprovechar la modularidad de las pipelines de RAG, el algoritmo de búsqueda de índice de archivo invertido (IVF) y las similitudes entre consultas, TeleRAG superpone de manera óptima el movimiento de datos y el cómputo. Los resultados experimentales muestran que TeleRAG reduce la latencia de inferencia RAG de extremo a extremo hasta 1.72x en promedio en comparación con los sistemas más avanzados, permitiendo implementaciones más rápidas y eficientes en memoria de aplicaciones RAG avanzadas.
English
Retrieval-augmented generation (RAG) extends large language models (LLMs)
with external data sources to enhance factual correctness and domain coverage.
Modern RAG pipelines rely on large datastores, leading to system challenges in
latency-sensitive deployments, especially when limited GPU memory is available.
To address these challenges, we propose TeleRAG, an efficient inference system
that reduces RAG latency with minimal GPU memory requirements. The core
innovation of TeleRAG is lookahead retrieval, a prefetching mechanism that
anticipates required data and transfers it from CPU to GPU in parallel with LLM
generation. By leveraging the modularity of RAG pipelines, the inverted file
index (IVF) search algorithm and similarities between queries, TeleRAG
optimally overlaps data movement and computation. Experimental results show
that TeleRAG reduces end-to-end RAG inference latency by up to 1.72x on average
compared to state-of-the-art systems, enabling faster, more memory-efficient
deployments of advanced RAG applications.