より多くの文書、同じ長さ:RAGにおける複数文書の課題の分離
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
March 6, 2025
著者: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI
要旨
検索拡張生成(RAG)は、大規模言語モデル(LLM)に関連文書を提供します。これまでの研究では、多くの文書を取得すると性能が低下する可能性が指摘されていましたが、文脈の長さを制御しながら文書の量が性能にどのように影響するかは明確にされていませんでした。私たちは、マルチホップQAタスクから派生したカスタムデータセットを用いて、さまざまな言語モデルを評価しました。文脈の長さと関連情報の位置を一定に保ちながら文書の数を変化させた結果、RAG設定で文書数を増やすことがLLMにとって大きな課題となることがわかりました。さらに、複数の文書を処理することは、長い文脈を扱うこととは別の課題であることも示唆されています。私たちは、データセットとコードも公開しています:https://github.com/shaharl6000/MoreDocsSameLen。
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents.
Although previous studies noted that retrieving many documents can degrade
performance, they did not isolate how the quantity of documents affects
performance while controlling for context length. We evaluate various language
models on custom datasets derived from a multi-hop QA task. We keep the context
length and position of relevant information constant while varying the number
of documents, and find that increasing the document count in RAG settings poses
significant challenges for LLMs. Additionally, our results indicate that
processing multiple documents is a separate challenge from handling long
contexts. We also make the datasets and code available:
https://github.com/shaharl6000/MoreDocsSameLen .Summary
AI-Generated Summary