Più Documenti, Stessa Lunghezza: Isolare la Sfida dei Documenti Multipli in RAG
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
March 6, 2025
Autori: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI
Abstract
La generazione potenziata dal recupero (RAG) fornisce ai modelli linguistici di grandi dimensioni (LLM) documenti rilevanti. Sebbene studi precedenti abbiano osservato che il recupero di molti documenti possa degradare le prestazioni, non hanno isolato come la quantità di documenti influisca sulle prestazioni mantenendo costante la lunghezza del contesto. Valutiamo vari modelli linguistici su dataset personalizzati derivati da un'attività di risposta a domande multi-hop. Manteniamo costanti la lunghezza del contesto e la posizione delle informazioni rilevanti, variando il numero di documenti, e scopriamo che aumentare il numero di documenti in contesti RAG pone sfide significative per i LLM. Inoltre, i nostri risultati indicano che elaborare più documenti rappresenta una sfida distinta rispetto alla gestione di contesti lunghi. Rendiamo disponibili i dataset e il codice: https://github.com/shaharl6000/MoreDocsSameLen.
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents.
Although previous studies noted that retrieving many documents can degrade
performance, they did not isolate how the quantity of documents affects
performance while controlling for context length. We evaluate various language
models on custom datasets derived from a multi-hop QA task. We keep the context
length and position of relevant information constant while varying the number
of documents, and find that increasing the document count in RAG settings poses
significant challenges for LLMs. Additionally, our results indicate that
processing multiple documents is a separate challenge from handling long
contexts. We also make the datasets and code available:
https://github.com/shaharl6000/MoreDocsSameLen .