LongRAG: Mejorando la Generación Aumentada por Recuperación con LLMs de Contexto Largo
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
June 21, 2024
Autores: Ziyan Jiang, Xueguang Ma, Wenhu Chen
cs.AI
Resumen
En el marco tradicional de RAG, las unidades básicas de recuperación suelen ser cortas. Los recuperadores comunes como DPR normalmente trabajan con párrafos de Wikipedia de 100 palabras. Este diseño obliga al recuperador a buscar en un gran corpus para encontrar la unidad "aguja". En contraste, los lectores solo necesitan extraer respuestas de las unidades cortas recuperadas. Este diseño desequilibrado, con un recuperador "pesado" y un lector "ligero", puede llevar a un rendimiento subóptimo. Para aliviar este desequilibrio, proponemos un nuevo marco llamado LongRAG, que consta de un "recuperador largo" y un "lector largo". LongRAG procesa toda Wikipedia en unidades de 4K tokens, que es 30 veces más largo que antes. Al aumentar el tamaño de la unidad, reducimos significativamente el número total de unidades de 22M a 700K. Esto reduce considerablemente la carga del recuperador, lo que resulta en una puntuación de recuperación notable: recall@1 de respuestas = 71% en NQ (anteriormente 52%) y recall@2 de respuestas = 72% (anteriormente 47%) en HotpotQA (full-wiki). Luego, alimentamos las unidades recuperadas top-k (aproximadamente 30K tokens) a un LLM de contexto largo existente para realizar la extracción de respuestas en modo zero-shot. Sin requerir ningún entrenamiento, LongRAG logra un EM de 62.7% en NQ, que es el mejor resultado conocido. LongRAG también alcanza un 64.3% en HotpotQA (full-wiki), que está a la par del modelo SoTA. Nuestro estudio ofrece ideas sobre la hoja de ruta futura para combinar RAG con LLMs de contexto largo.
English
In traditional RAG framework, the basic retrieval units are normally short.
The common retrievers like DPR normally work with 100-word Wikipedia
paragraphs. Such a design forces the retriever to search over a large corpus to
find the `needle' unit. In contrast, the readers only need to extract answers
from the short retrieved units. Such an imbalanced `heavy' retriever and
`light' reader design can lead to sub-optimal performance. In order to
alleviate the imbalance, we propose a new framework LongRAG, consisting of a
`long retriever' and a `long reader'. LongRAG processes the entire Wikipedia
into 4K-token units, which is 30x longer than before. By increasing the unit
size, we significantly reduce the total units from 22M to 700K. This
significantly lowers the burden of retriever, which leads to a remarkable
retrieval score: answer recall@1=71% on NQ (previously 52%) and answer
recall@2=72% (previously 47%) on HotpotQA (full-wiki). Then we feed the top-k
retrieved units (approx 30K tokens) to an existing long-context LLM to
perform zero-shot answer extraction. Without requiring any training, LongRAG
achieves an EM of 62.7% on NQ, which is the best known result. LongRAG also
achieves 64.3% on HotpotQA (full-wiki), which is on par of the SoTA model. Our
study offers insights into the future roadmap for combining RAG with
long-context LLMs.Summary
AI-Generated Summary