TeleRAG: Generación Aumentada por Recuperación Eficiente con Recuperación Anticipada

Resumen

La generación aumentada por recuperación (RAG, por sus siglas en inglés) amplía los modelos de lenguaje de gran escala (LLMs) con fuentes de datos externas para mejorar la precisión factual y la cobertura de dominio. Las pipelines modernas de RAG dependen de grandes almacenes de datos, lo que genera desafíos en sistemas con requisitos de baja latencia, especialmente cuando la memoria de GPU disponible es limitada. Para abordar estos desafíos, proponemos TeleRAG, un sistema de inferencia eficiente que reduce la latencia de RAG con requisitos mínimos de memoria de GPU. La innovación central de TeleRAG es la recuperación anticipada, un mecanismo de prefetching que anticipa los datos necesarios y los transfiere de la CPU a la GPU en paralelo con la generación del LLM. Al aprovechar la modularidad de las pipelines de RAG, el algoritmo de búsqueda de índice de archivo invertido (IVF) y las similitudes entre consultas, TeleRAG superpone de manera óptima el movimiento de datos y el cómputo. Los resultados experimentales muestran que TeleRAG reduce la latencia de inferencia RAG de extremo a extremo hasta 1.72x en promedio en comparación con los sistemas más avanzados, permitiendo implementaciones más rápidas y eficientes en memoria de aplicaciones RAG avanzadas.

English

Retrieval-augmented generation (RAG) extends large language models (LLMs) with external data sources to enhance factual correctness and domain coverage. Modern RAG pipelines rely on large datastores, leading to system challenges in latency-sensitive deployments, especially when limited GPU memory is available. To address these challenges, we propose TeleRAG, an efficient inference system that reduces RAG latency with minimal GPU memory requirements. The core innovation of TeleRAG is lookahead retrieval, a prefetching mechanism that anticipates required data and transfers it from CPU to GPU in parallel with LLM generation. By leveraging the modularity of RAG pipelines, the inverted file index (IVF) search algorithm and similarities between queries, TeleRAG optimally overlaps data movement and computation. Experimental results show that TeleRAG reduces end-to-end RAG inference latency by up to 1.72x on average compared to state-of-the-art systems, enabling faster, more memory-efficient deployments of advanced RAG applications.

TeleRAG: Generación Aumentada por Recuperación Eficiente con Recuperación Anticipada

TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval

Resumen

Support