ChatPaper.aiChatPaper

Más Documentos, Misma Longitud: Aislando el Desafío de Múltiples Documentos en RAG

More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

March 6, 2025
Autores: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI

Resumen

La generación aumentada por recuperación (RAG, por sus siglas en inglés) proporciona a los modelos de lenguaje grandes (LLMs) documentos relevantes. Aunque estudios previos señalaron que recuperar muchos documentos puede degradar el rendimiento, no aislaron cómo la cantidad de documentos afecta el rendimiento mientras se controlaba la longitud del contexto. Evaluamos varios modelos de lenguaje en conjuntos de datos personalizados derivados de una tarea de preguntas y respuestas de múltiples saltos. Mantenemos constante la longitud del contexto y la posición de la información relevante mientras variamos el número de documentos, y encontramos que aumentar el número de documentos en configuraciones RAG presenta desafíos significativos para los LLMs. Además, nuestros resultados indican que procesar múltiples documentos es un desafío separado de manejar contextos largos. También ponemos a disposición los conjuntos de datos y el código: https://github.com/shaharl6000/MoreDocsSameLen.
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents. Although previous studies noted that retrieving many documents can degrade performance, they did not isolate how the quantity of documents affects performance while controlling for context length. We evaluate various language models on custom datasets derived from a multi-hop QA task. We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for LLMs. Additionally, our results indicate that processing multiple documents is a separate challenge from handling long contexts. We also make the datasets and code available: https://github.com/shaharl6000/MoreDocsSameLen .

Summary

AI-Generated Summary

PDF163March 13, 2025