Weniger LLM, mehr Dokumente: Auf der Suche nach verbessertem RAG

papers.abstract

Retrieval-Augmented Generation (RAG) kombiniert Dokumentenabruf mit großen Sprachmodellen (LLMs). Während die Skalierung von Generatoren die Genauigkeit verbessert, erhöht sie auch die Kosten und schränkt die Einsatzfähigkeit ein. Wir untersuchen eine orthogonale Achse: die Vergrößerung des Korpus des Retrievers, um die Abhängigkeit von großen LLMs zu verringern. Experimentelle Ergebnisse zeigen, dass die Skalierung des Korpus RAG konsequent stärkt und oft als Ersatz für die Vergrößerung der Modellgröße dienen kann, obwohl mit abnehmenden Erträgen bei größeren Skalen. Kleine und mittelgroße Generatoren, die mit größeren Korpora gepaart sind, erreichen oft ähnliche Ergebnisse wie viel größere Modelle mit kleineren Korpora; mittelgroße Modelle profitieren tendenziell am meisten, während winzige und große Modelle weniger Vorteile haben. Unsere Analyse zeigt, dass die Verbesserungen hauptsächlich auf eine erhöhte Abdeckung von antwortrelevanten Passagen zurückzuführen sind, während die Nutzungseffizienz weitgehend unverändert bleibt. Diese Erkenntnisse etablieren einen prinzipiellen Kompromiss zwischen Korpus und Generator: Die Investition in größere Korpora bietet einen effektiven Weg zu einem stärkeren RAG, der oft mit der Vergrößerung des LLM selbst vergleichbar ist.

English

Retrieval-Augmented Generation (RAG) couples document retrieval with large language models (LLMs). While scaling generators improves accuracy, it also raises cost and limits deployability. We explore an orthogonal axis: enlarging the retriever's corpus to reduce reliance on large LLMs. Experimental results show that corpus scaling consistently strengthens RAG and can often serve as a substitute for increasing model size, though with diminishing returns at larger scales. Small- and mid-sized generators paired with larger corpora often rival much larger models with smaller corpora; mid-sized models tend to gain the most, while tiny and large models benefit less. Our analysis shows that improvements arise primarily from increased coverage of answer-bearing passages, while utilization efficiency remains largely unchanged. These findings establish a principled corpus-generator trade-off: investing in larger corpora offers an effective path to stronger RAG, often comparable to enlarging the LLM itself.

Weniger LLM, mehr Dokumente: Auf der Suche nach verbessertem RAG

Less LLM, More Documents: Searching for Improved RAG

papers.abstract

Support