ChatPaper.aiChatPaper

Plus de documents, même longueur : Isoler le défi des documents multiples dans RAG

More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

March 6, 2025
Auteurs: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI

Résumé

La génération augmentée par récupération (RAG) fournit aux LLMs des documents pertinents. Bien que des études antérieures aient noté que la récupération d'un grand nombre de documents peut dégrader les performances, elles n'ont pas isolé l'impact de la quantité de documents sur les performances tout en contrôlant la longueur du contexte. Nous évaluons divers modèles de langage sur des ensembles de données personnalisés dérivés d'une tâche de question-réponse multi-sauts. Nous maintenons la longueur du contexte et la position des informations pertinentes constantes tout en faisant varier le nombre de documents, et constatons que l'augmentation du nombre de documents dans les configurations RAG pose des défis significatifs pour les LLMs. De plus, nos résultats indiquent que le traitement de plusieurs documents constitue un défi distinct de la gestion de contextes longs. Nous mettons également à disposition les ensembles de données et le code : https://github.com/shaharl6000/MoreDocsSameLen.
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents. Although previous studies noted that retrieving many documents can degrade performance, they did not isolate how the quantity of documents affects performance while controlling for context length. We evaluate various language models on custom datasets derived from a multi-hop QA task. We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for LLMs. Additionally, our results indicate that processing multiple documents is a separate challenge from handling long contexts. We also make the datasets and code available: https://github.com/shaharl6000/MoreDocsSameLen .

Summary

AI-Generated Summary

PDF163March 13, 2025