Weniger LLM, mehr Dokumente: Auf der Suche nach verbessertem RAG
Less LLM, More Documents: Searching for Improved RAG
October 3, 2025
papers.authors: Jingjie Ning, Yibo Kong, Yunfan Long, Jamie Callan
cs.AI
papers.abstract
Retrieval-Augmented Generation (RAG) kombiniert Dokumentenabruf mit großen Sprachmodellen (LLMs). Während die Skalierung von Generatoren die Genauigkeit verbessert, erhöht sie auch die Kosten und schränkt die Einsatzfähigkeit ein. Wir untersuchen eine orthogonale Achse: die Vergrößerung des Korpus des Retrievers, um die Abhängigkeit von großen LLMs zu verringern. Experimentelle Ergebnisse zeigen, dass die Skalierung des Korpus RAG konsequent stärkt und oft als Ersatz für die Vergrößerung der Modellgröße dienen kann, obwohl mit abnehmenden Erträgen bei größeren Skalen. Kleine und mittelgroße Generatoren, die mit größeren Korpora gepaart sind, erreichen oft ähnliche Ergebnisse wie viel größere Modelle mit kleineren Korpora; mittelgroße Modelle profitieren tendenziell am meisten, während winzige und große Modelle weniger Vorteile haben. Unsere Analyse zeigt, dass die Verbesserungen hauptsächlich auf eine erhöhte Abdeckung von antwortrelevanten Passagen zurückzuführen sind, während die Nutzungseffizienz weitgehend unverändert bleibt. Diese Erkenntnisse etablieren einen prinzipiellen Kompromiss zwischen Korpus und Generator: Die Investition in größere Korpora bietet einen effektiven Weg zu einem stärkeren RAG, der oft mit der Vergrößerung des LLM selbst vergleichbar ist.
English
Retrieval-Augmented Generation (RAG) couples document retrieval with large
language models (LLMs). While scaling generators improves accuracy, it also
raises cost and limits deployability. We explore an orthogonal axis: enlarging
the retriever's corpus to reduce reliance on large LLMs. Experimental results
show that corpus scaling consistently strengthens RAG and can often serve as a
substitute for increasing model size, though with diminishing returns at larger
scales. Small- and mid-sized generators paired with larger corpora often rival
much larger models with smaller corpora; mid-sized models tend to gain the
most, while tiny and large models benefit less. Our analysis shows that
improvements arise primarily from increased coverage of answer-bearing
passages, while utilization efficiency remains largely unchanged. These
findings establish a principled corpus-generator trade-off: investing in larger
corpora offers an effective path to stronger RAG, often comparable to enlarging
the LLM itself.