大規模言語モデル時代における検索評価の再定義
Redefining Retrieval Evaluation in the Era of LLMs
October 24, 2025
著者: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI
要旨
従来のnDCG、MAP、MRRといった情報検索(IR)の評価指標は、人間のユーザーが文書を順次閲覧し、ランクが下がるほど注意が減衰していくという前提に立っている。この前提は、検索結果を大規模言語モデル(LLM)が消費する検索拡張生成(RAG)システムでは成り立たない。LLMは人間とは異なり、検索された文書を順次処理するのではなく、全体として一括処理する。さらに、従来のIR指標は、無視されるだけでなく生成品質を積極的に劣化させる、関連性はあるが不適切な文書の影響を考慮していない。すなわち、「人間と機械の位置に対する減衰」および「人間の関連性と機械の有用性」という2つの主要な不一致により、従来のIR指標はRAGの性能を正確に予測できない。本研究では、関連性のある文書の正の寄与と、注意を散らす文書の負の影響の両方を定量化する、有用性に基づく注釈スキーマを提案する。この基盤に立脚して、我々はUDCG(Utility and Distraction-aware Cumulative Gain)を提案する。この指標は、LLM志向の位置減衰を用いて、エンドツーエンドの回答精度との相関を直接最適化する。5つのデータセットと6つのLLMを用いた実験により、UDCGが従来の評価指標と比較して最大36%相関を改善することを実証した。本研究成果は、IR評価をLLMという消費者に適合させるための重要な一歩を示し、RAG構成要素のより信頼性の高い評価を可能にするものである。
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR,
assume that human users sequentially examine documents with diminishing
attention to lower ranks. This assumption breaks down in Retrieval Augmented
Generation (RAG) systems, where search results are consumed by Large Language
Models (LLMs), which, unlike humans, process all retrieved documents as a whole
rather than sequentially. Additionally, traditional IR metrics do not account
for related but irrelevant documents that actively degrade generation quality,
rather than merely being ignored. Due to these two major misalignments, namely
human vs. machine position discount and human relevance vs. machine utility,
classical IR metrics do not accurately predict RAG performance. We introduce a
utility-based annotation schema that quantifies both the positive contribution
of relevant passages and the negative impact of distracting ones. Building on
this foundation, we propose UDCG (Utility and Distraction-aware Cumulative
Gain), a metric using an LLM-oriented positional discount to directly optimize
the correlation with the end-to-end answer accuracy. Experiments on five
datasets and six LLMs demonstrate that UDCG improves correlation by up to 36%
compared to traditional metrics. Our work provides a critical step toward
aligning IR evaluation with LLM consumers and enables more reliable assessment
of RAG components