Meer Documenten, dezelfde Lengte: Het Isoleren van de Uitdaging van Meerdere Documenten in RAG
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
March 6, 2025
Auteurs: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI
Samenvatting
Retrieval-augmented generation (RAG) voorziet grote taalmodellen (LLMs) van relevante documenten. Hoewel eerdere studies opmerkten dat het ophalen van veel documenten de prestaties kan verslechteren, isoleerden zij niet hoe de hoeveelheid documenten de prestaties beïnvloedt terwijl de contextlengte constant werd gehouden. Wij evalueren verschillende taalmodellen op aangepaste datasets afgeleid van een multi-hop QA-taak. We houden de contextlengte en de positie van relevante informatie constant terwijl we het aantal documenten variëren, en ontdekken dat het verhogen van het aantal documenten in RAG-instellingen aanzienlijke uitdagingen vormt voor LLMs. Daarnaast geven onze resultaten aan dat het verwerken van meerdere documenten een aparte uitdaging is in vergelijking met het omgaan met lange contexten. We maken ook de datasets en code beschikbaar: https://github.com/shaharl6000/MoreDocsSameLen.
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents.
Although previous studies noted that retrieving many documents can degrade
performance, they did not isolate how the quantity of documents affects
performance while controlling for context length. We evaluate various language
models on custom datasets derived from a multi-hop QA task. We keep the context
length and position of relevant information constant while varying the number
of documents, and find that increasing the document count in RAG settings poses
significant challenges for LLMs. Additionally, our results indicate that
processing multiple documents is a separate challenge from handling long
contexts. We also make the datasets and code available:
https://github.com/shaharl6000/MoreDocsSameLen .Summary
AI-Generated Summary