LongRAG : Amélioration de la Génération Augmentée par Récupération avec des LLMs à Contexte LongLongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
Dans le cadre traditionnel de RAG, les unités de récupération de base sont généralement courtes. Les récupérateurs courants comme DPR fonctionnent normalement avec des paragraphes de Wikipédia de 100 mots. Une telle conception oblige le récupérateur à parcourir un large corpus pour trouver l'unité "aiguille". En revanche, les lecteurs n'ont besoin d'extraire les réponses que des courtes unités récupérées. Cette conception déséquilibrée, avec un récupérateur "lourd" et un lecteur "léger", peut entraßner des performances sous-optimales. Pour atténuer ce déséquilibre, nous proposons un nouveau cadre appelé LongRAG, composé d'un "récupérateur long" et d'un "lecteur long". LongRAG traite l'intégralité de Wikipédia en unités de 4 000 tokens, soit 30 fois plus longues qu'auparavant. En augmentant la taille des unités, nous réduisons considérablement le nombre total d'unités, passant de 22 millions à 700 000. Cela allÚge significativement la charge du récupérateur, ce qui conduit à un score de récupération remarquable : un rappel de réponse@1 de 71 % sur NQ (contre 52 % précédemment) et un rappel de réponse@2 de 72 % (contre 47 % précédemment) sur HotpotQA (full-wiki). Ensuite, nous alimentons les k premiÚres unités récupérées (environ 30 000 tokens) dans un LLM à contexte long existant pour effectuer une extraction de réponse en zero-shot. Sans nécessiter d'entraßnement, LongRAG atteint un EM de 62,7 % sur NQ, ce qui constitue le meilleur résultat connu. LongRAG atteint également 64,3 % sur HotpotQA (full-wiki), ce qui est comparable au modÚle SoTA. Notre étude offre des perspectives sur la feuille de route future pour combiner RAG avec des LLMs à contexte long.