ChatPaper.aiChatPaper

Больше документов, та же длина: выделение проблемы работы с несколькими документами в RAG

More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

March 6, 2025
Авторы: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI

Аннотация

Генерация с использованием извлечения информации (RAG) предоставляет большим языковым моделям (LLM) доступ к релевантным документам. Хотя предыдущие исследования отмечали, что извлечение большого количества документов может ухудшить производительность, они не изолировали влияние количества документов на производительность при контроле длины контекста. Мы оцениваем различные языковые модели на пользовательских наборах данных, созданных на основе задачи многошагового вопросно-ответного взаимодействия (multi-hop QA). Мы сохраняем длину контекста и позицию релевантной информации постоянными, варьируя количество документов, и обнаруживаем, что увеличение числа документов в настройках RAG создает значительные трудности для LLM. Кроме того, наши результаты показывают, что обработка нескольких документов представляет собой отдельную задачу, отличную от работы с длинными контекстами. Мы также делаем наборы данных и код доступными: https://github.com/shaharl6000/MoreDocsSameLen.
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents. Although previous studies noted that retrieving many documents can degrade performance, they did not isolate how the quantity of documents affects performance while controlling for context length. We evaluate various language models on custom datasets derived from a multi-hop QA task. We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for LLMs. Additionally, our results indicate that processing multiple documents is a separate challenge from handling long contexts. We also make the datasets and code available: https://github.com/shaharl6000/MoreDocsSameLen .

Summary

AI-Generated Summary

PDF163March 13, 2025