Menos LLM, Mais Documentos: Em Busca de uma Melhoria no RAG
Less LLM, More Documents: Searching for Improved RAG
October 3, 2025
Autores: Jingjie Ning, Yibo Kong, Yunfan Long, Jamie Callan
cs.AI
Resumo
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) combina a recuperação de documentos com modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). Embora a escalonamento dos geradores melhore a precisão, também aumenta os custos e limita a capacidade de implantação. Exploramos um eixo ortogonal: ampliar o corpus do recuperador para reduzir a dependência de LLMs grandes. Resultados experimentais mostram que a escalonamento do corpus fortalece consistentemente o RAG e pode frequentemente servir como um substituto para o aumento do tamanho do modelo, embora com retornos decrescentes em escalas maiores. Geradores de pequeno e médio porte emparelhados com corpora maiores frequentemente rivalizam com modelos muito maiores com corpora menores; modelos de médio porte tendem a se beneficiar mais, enquanto modelos muito pequenos ou muito grandes se beneficiam menos. Nossa análise mostra que as melhorias surgem principalmente do aumento da cobertura de passagens que contêm respostas, enquanto a eficiência de utilização permanece praticamente inalterada. Essas descobertas estabelecem uma troca princial entre corpus e gerador: investir em corpora maiores oferece um caminho eficaz para um RAG mais robusto, frequentemente comparável ao aumento do próprio LLM.
English
Retrieval-Augmented Generation (RAG) couples document retrieval with large
language models (LLMs). While scaling generators improves accuracy, it also
raises cost and limits deployability. We explore an orthogonal axis: enlarging
the retriever's corpus to reduce reliance on large LLMs. Experimental results
show that corpus scaling consistently strengthens RAG and can often serve as a
substitute for increasing model size, though with diminishing returns at larger
scales. Small- and mid-sized generators paired with larger corpora often rival
much larger models with smaller corpora; mid-sized models tend to gain the
most, while tiny and large models benefit less. Our analysis shows that
improvements arise primarily from increased coverage of answer-bearing
passages, while utilization efficiency remains largely unchanged. These
findings establish a principled corpus-generator trade-off: investing in larger
corpora offers an effective path to stronger RAG, often comparable to enlarging
the LLM itself.