LongRAG: Verbesserung der abrufgestützten Generierung mit Long-Context LLMs
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
June 21, 2024
Autoren: Ziyan Jiang, Xueguang Ma, Wenhu Chen
cs.AI
Zusammenfassung
Im traditionellen RAG-Framework sind die grundlegenden Abrufeinheiten normalerweise kurz. Die gängigen Abrufsysteme wie DPR arbeiten normalerweise mit 100-Wort-Wikipedia-Absätzen. Ein solches Design zwingt den Abrufsystem dazu, in einem großen Korpus nach der "Nadel" zu suchen. Im Gegensatz dazu müssen die Leser nur Antworten aus den kurz abgerufenen Einheiten extrahieren. Ein solches unausgewogenes Design mit einem "schweren" Abrufsystem und einem "leichten" Leser kann zu einer suboptimalen Leistung führen. Um das Ungleichgewicht zu mildern, schlagen wir ein neues Framework namens LongRAG vor, bestehend aus einem "langen Abrufsystem" und einem "langen Leser". LongRAG verarbeitet das gesamte Wikipedia in 4K-Token-Einheiten, was 30-mal länger ist als zuvor. Durch die Erhöhung der Einheitsgröße reduzieren wir die Gesamteinheiten signifikant von 22 Mio. auf 700.000. Dies verringert die Belastung des Abrufsystems erheblich, was zu einer bemerkenswerten Abrufleistung führt: Antwortabruf@1=71% bei NQ (zuvor 52%) und Antwortabruf@2=72% (zuvor 47%) bei HotpotQA (vollständiges Wiki). Anschließend führen wir die Top-k abgerufenen Einheiten (ca. 30K Token) einem vorhandenen LLM mit langem Kontext zu, um die Extraktion von Antworten ohne Schulung durchzuführen. Ohne Schulung zu benötigen, erreicht LongRAG eine EM von 62,7% bei NQ, was das bisher beste Ergebnis ist. LongRAG erreicht auch 64,3% bei HotpotQA (vollständiges Wiki), was dem SoTA-Modell entspricht. Unsere Studie bietet Einblicke in die zukünftige Roadmap zur Kombination von RAG mit LLMs mit langem Kontext.
English
In traditional RAG framework, the basic retrieval units are normally short.
The common retrievers like DPR normally work with 100-word Wikipedia
paragraphs. Such a design forces the retriever to search over a large corpus to
find the `needle' unit. In contrast, the readers only need to extract answers
from the short retrieved units. Such an imbalanced `heavy' retriever and
`light' reader design can lead to sub-optimal performance. In order to
alleviate the imbalance, we propose a new framework LongRAG, consisting of a
`long retriever' and a `long reader'. LongRAG processes the entire Wikipedia
into 4K-token units, which is 30x longer than before. By increasing the unit
size, we significantly reduce the total units from 22M to 700K. This
significantly lowers the burden of retriever, which leads to a remarkable
retrieval score: answer recall@1=71% on NQ (previously 52%) and answer
recall@2=72% (previously 47%) on HotpotQA (full-wiki). Then we feed the top-k
retrieved units (approx 30K tokens) to an existing long-context LLM to
perform zero-shot answer extraction. Without requiring any training, LongRAG
achieves an EM of 62.7% on NQ, which is the best known result. LongRAG also
achieves 64.3% on HotpotQA (full-wiki), which is on par of the SoTA model. Our
study offers insights into the future roadmap for combining RAG with
long-context LLMs.Summary
AI-Generated Summary