LongRAG: Verbetering van Retrieval-Augmented Generation met Long-context LLM's
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
June 21, 2024
Auteurs: Ziyan Jiang, Xueguang Ma, Wenhu Chen
cs.AI
Samenvatting
In het traditionele RAG-framework zijn de basiseenheden voor retrieval doorgaans kort.
Veelgebruikte retrievers zoals DPR werken normaal gesproken met Wikipedia-paragrafen van 100 woorden.
Een dergelijk ontwerp dwingt de retriever om in een grote corpus te zoeken naar de 'naald'-eenheid.
Daarentegen hoeven de readers alleen antwoorden te extraheren uit de korte, opgehaalde eenheden.
Een dergelijk onevenwichtig ontwerp met een 'zware' retriever en een 'lichte' reader kan leiden tot suboptimale prestaties.
Om dit onevenwicht te verlichten, stellen we een nieuw framework voor, LongRAG, bestaande uit een 'lange retriever' en een 'lange reader'.
LongRAG verwerkt de volledige Wikipedia in eenheden van 4K tokens, wat 30x langer is dan voorheen.
Door de eenheidsgrootte te vergroten, verminderen we het totale aantal eenheden aanzienlijk van 22M naar 700K.
Dit verlaagt de belasting van de retriever aanzienlijk, wat leidt tot een opmerkelijke retrievalscore: answer recall@1=71% op NQ (voorheen 52%) en answer recall@2=72% (voorheen 47%) op HotpotQA (full-wiki).
Vervolgens voeren we de top-k opgehaalde eenheden (ongeveer 30K tokens) naar een bestaande LLM met lange context om zero-shot antwoordextractie uit te voeren.
Zonder enige training te vereisen, behaalt LongRAG een EM van 62,7% op NQ, wat het beste bekende resultaat is.
LongRAG behaalt ook 64,3% op HotpotQA (full-wiki), wat gelijk is aan het SoTA-model.
Onze studie biedt inzichten in de toekomstige roadmap voor het combineren van RAG met LLM's met lange context.
English
In traditional RAG framework, the basic retrieval units are normally short.
The common retrievers like DPR normally work with 100-word Wikipedia
paragraphs. Such a design forces the retriever to search over a large corpus to
find the `needle' unit. In contrast, the readers only need to extract answers
from the short retrieved units. Such an imbalanced `heavy' retriever and
`light' reader design can lead to sub-optimal performance. In order to
alleviate the imbalance, we propose a new framework LongRAG, consisting of a
`long retriever' and a `long reader'. LongRAG processes the entire Wikipedia
into 4K-token units, which is 30x longer than before. By increasing the unit
size, we significantly reduce the total units from 22M to 700K. This
significantly lowers the burden of retriever, which leads to a remarkable
retrieval score: answer recall@1=71% on NQ (previously 52%) and answer
recall@2=72% (previously 47%) on HotpotQA (full-wiki). Then we feed the top-k
retrieved units (approx 30K tokens) to an existing long-context LLM to
perform zero-shot answer extraction. Without requiring any training, LongRAG
achieves an EM of 62.7% on NQ, which is the best known result. LongRAG also
achieves 64.3% on HotpotQA (full-wiki), which is on par of the SoTA model. Our
study offers insights into the future roadmap for combining RAG with
long-context LLMs.