ChatPaper.aiChatPaper

TeleRAG : Inférence efficace de génération augmentée par récupération avec récupération anticipée

TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval

February 28, 2025
Auteurs: Chien-Yu Lin, Keisuke Kamahori, Yiyu Liu, Xiaoxiang Shi, Madhav Kashyap, Yile Gu, Rulin Shao, Zihao Ye, Kan Zhu, Stephanie Wang, Arvind Krishnamurthy, Rohan Kadekodi, Luis Ceze, Baris Kasikci
cs.AI

Résumé

La génération augmentée par récupération (RAG) étend les capacités des grands modèles de langage (LLM) en intégrant des sources de données externes pour améliorer l'exactitude factuelle et la couverture de domaines spécifiques. Les pipelines RAG modernes s'appuient sur de vastes bases de données, ce qui pose des défis systémiques dans les déploiements sensibles à la latence, en particulier lorsque la mémoire GPU disponible est limitée. Pour relever ces défis, nous proposons TeleRAG, un système d'inférence efficace qui réduit la latence de RAG tout en minimisant les besoins en mémoire GPU. L'innovation clé de TeleRAG est la récupération anticipée, un mécanisme de préchargement qui anticipe les données nécessaires et les transfère du CPU vers le GPU en parallèle avec la génération du LLM. En tirant parti de la modularité des pipelines RAG, de l'algorithme de recherche par fichier inversé (IVF) et des similarités entre les requêtes, TeleRAG optimise le chevauchement entre le mouvement des données et le calcul. Les résultats expérimentaux montrent que TeleRAG réduit la latence d'inférence RAG de bout en bout jusqu'à 1,72x en moyenne par rapport aux systèmes de pointe, permettant des déploiements plus rapides et plus efficaces en mémoire pour les applications RAG avancées.
English
Retrieval-augmented generation (RAG) extends large language models (LLMs) with external data sources to enhance factual correctness and domain coverage. Modern RAG pipelines rely on large datastores, leading to system challenges in latency-sensitive deployments, especially when limited GPU memory is available. To address these challenges, we propose TeleRAG, an efficient inference system that reduces RAG latency with minimal GPU memory requirements. The core innovation of TeleRAG is lookahead retrieval, a prefetching mechanism that anticipates required data and transfers it from CPU to GPU in parallel with LLM generation. By leveraging the modularity of RAG pipelines, the inverted file index (IVF) search algorithm and similarities between queries, TeleRAG optimally overlaps data movement and computation. Experimental results show that TeleRAG reduces end-to-end RAG inference latency by up to 1.72x on average compared to state-of-the-art systems, enabling faster, more memory-efficient deployments of advanced RAG applications.

Summary

AI-Generated Summary

PDF112March 3, 2025