Меньше LLM, больше документов: поиск улучшенного RAG
Less LLM, More Documents: Searching for Improved RAG
October 3, 2025
Авторы: Jingjie Ning, Yibo Kong, Yunfan Long, Jamie Callan
cs.AI
Аннотация
Генерация с усилением за счет поиска (Retrieval-Augmented Generation, RAG) объединяет поиск документов с большими языковыми моделями (LLM). Хотя масштабирование генераторов повышает точность, это также увеличивает затраты и ограничивает возможность развертывания. Мы исследуем альтернативный подход: расширение корпуса данных для поиска с целью снижения зависимости от крупных LLM. Экспериментальные результаты показывают, что масштабирование корпуса последовательно усиливает RAG и часто может служить заменой увеличения размера модели, хотя с уменьшающейся отдачей на больших масштабах. Небольшие и средние генераторы в сочетании с более крупными корпусами часто конкурируют с гораздо большими моделями, использующими меньшие корпуса; средние модели получают наибольшую выгоду, в то время как очень маленькие и крупные модели выигрывают меньше. Наш анализ показывает, что улучшения в основном возникают за счет увеличения охвата фрагментов, содержащих ответы, при этом эффективность использования остается практически неизменной. Эти результаты устанавливают принципиальный компромисс между корпусом и генератором: инвестиции в более крупные корпуса предлагают эффективный путь к усилению RAG, часто сопоставимый с увеличением самой LLM.
English
Retrieval-Augmented Generation (RAG) couples document retrieval with large
language models (LLMs). While scaling generators improves accuracy, it also
raises cost and limits deployability. We explore an orthogonal axis: enlarging
the retriever's corpus to reduce reliance on large LLMs. Experimental results
show that corpus scaling consistently strengthens RAG and can often serve as a
substitute for increasing model size, though with diminishing returns at larger
scales. Small- and mid-sized generators paired with larger corpora often rival
much larger models with smaller corpora; mid-sized models tend to gain the
most, while tiny and large models benefit less. Our analysis shows that
improvements arise primarily from increased coverage of answer-bearing
passages, while utilization efficiency remains largely unchanged. These
findings establish a principled corpus-generator trade-off: investing in larger
corpora offers an effective path to stronger RAG, often comparable to enlarging
the LLM itself.