Menos LLM, Más Documentos: En Busca de una Mejora en RAG
Less LLM, More Documents: Searching for Improved RAG
October 3, 2025
Autores: Jingjie Ning, Yibo Kong, Yunfan Long, Jamie Callan
cs.AI
Resumen
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) combina la recuperación de documentos con modelos de lenguaje de gran escala (LLMs). Si bien escalar los generadores mejora la precisión, también incrementa los costos y limita la capacidad de implementación. Exploramos un eje ortogonal: ampliar el corpus del recuperador para reducir la dependencia de LLMs grandes. Los resultados experimentales muestran que escalar el corpus fortalece consistentemente a RAG y, a menudo, puede servir como sustituto para aumentar el tamaño del modelo, aunque con rendimientos decrecientes a escalas mayores. Generadores pequeños y medianos, emparejados con corpus más grandes, a menudo rivalizan con modelos mucho más grandes que utilizan corpus más pequeños; los modelos de tamaño mediano tienden a beneficiarse más, mientras que los modelos muy pequeños o muy grandes se benefician menos. Nuestro análisis muestra que las mejoras surgen principalmente de una mayor cobertura de pasajes que contienen respuestas, mientras que la eficiencia de utilización permanece en gran medida sin cambios. Estos hallazgos establecen un principio de compensación entre corpus y generador: invertir en corpus más grandes ofrece un camino efectivo para fortalecer a RAG, a menudo comparable a ampliar el propio LLM.
English
Retrieval-Augmented Generation (RAG) couples document retrieval with large
language models (LLMs). While scaling generators improves accuracy, it also
raises cost and limits deployability. We explore an orthogonal axis: enlarging
the retriever's corpus to reduce reliance on large LLMs. Experimental results
show that corpus scaling consistently strengthens RAG and can often serve as a
substitute for increasing model size, though with diminishing returns at larger
scales. Small- and mid-sized generators paired with larger corpora often rival
much larger models with smaller corpora; mid-sized models tend to gain the
most, while tiny and large models benefit less. Our analysis shows that
improvements arise primarily from increased coverage of answer-bearing
passages, while utilization efficiency remains largely unchanged. These
findings establish a principled corpus-generator trade-off: investing in larger
corpora offers an effective path to stronger RAG, often comparable to enlarging
the LLM itself.