Más Documentos, Misma Longitud: Aislando el Desafío de Múltiples Documentos en RAG
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
March 6, 2025
Autores: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI
Resumen
La generación aumentada por recuperación (RAG, por sus siglas en inglés) proporciona a los modelos de lenguaje grandes (LLMs) documentos relevantes. Aunque estudios previos señalaron que recuperar muchos documentos puede degradar el rendimiento, no aislaron cómo la cantidad de documentos afecta el rendimiento mientras se controlaba la longitud del contexto. Evaluamos varios modelos de lenguaje en conjuntos de datos personalizados derivados de una tarea de preguntas y respuestas de múltiples saltos. Mantenemos constante la longitud del contexto y la posición de la información relevante mientras variamos el número de documentos, y encontramos que aumentar el número de documentos en configuraciones RAG presenta desafíos significativos para los LLMs. Además, nuestros resultados indican que procesar múltiples documentos es un desafío separado de manejar contextos largos. También ponemos a disposición los conjuntos de datos y el código: https://github.com/shaharl6000/MoreDocsSameLen.
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents.
Although previous studies noted that retrieving many documents can degrade
performance, they did not isolate how the quantity of documents affects
performance while controlling for context length. We evaluate various language
models on custom datasets derived from a multi-hop QA task. We keep the context
length and position of relevant information constant while varying the number
of documents, and find that increasing the document count in RAG settings poses
significant challenges for LLMs. Additionally, our results indicate that
processing multiple documents is a separate challenge from handling long
contexts. We also make the datasets and code available:
https://github.com/shaharl6000/MoreDocsSameLen .Summary
AI-Generated Summary