Neudefinition der Bewertung von Informationswiedergewinnung im Zeitalter der LLMs
Redefining Retrieval Evaluation in the Era of LLMs
October 24, 2025
papers.authors: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI
papers.abstract
Traditionelle Metriken der Informationsrückgewinnung (IR), wie nDCG, MAP und MRR, gehen davon aus, dass menschliche Nutzer Dokumente sequenziell prüfen, wobei ihre Aufmerksamkeit für niedrigere Ränge abnimmt. Diese Annahme gilt nicht für Retrieval-Augmented-Generation (RAG)-Systeme, in denen Suchergebnisse von Large Language Models (LLMs) verarbeitet werden. Im Gegensatz zu Menschen verarbeiten LLMs alle abgerufenen Dokumente als Ganzes und nicht sequenziell. Darüber hinaus berücksichtigen traditionelle IR-Metriken nicht, dass verwandte, aber irrelevante Dokumente, die die Generierungsqualität aktiv verschlechtern, anstatt lediglich ignoriert zu werden. Aufgrund dieser beiden wesentlichen Fehlanpassungen – nämlich menschlicher vs. maschineller Positionsabschlag und menschliche Relevanz vs. maschineller Nutzen – sagen klassische IR-Metriken die RAG-Leistung nicht genau voraus. Wir führen ein nutzenbasiertes Annotationsschema ein, das sowohl den positiven Beitrag relevanter Passagen als auch die negative Auswirkung ablenkender Passagen quantifiziert. Auf dieser Grundlage aufbauend schlagen wir UDCG (Utility and Distraction-aware Cumulative Gain) vor, eine Metrik, die einen LLM-orientierten Positionsabschlag verwendet, um die Korrelation mit der end-to-end Antwortgenauigkeit direkt zu optimieren. Experimente mit fünf Datensätzen und sechs LLMs zeigen, dass UDCG die Korrelation im Vergleich zu traditionellen Metriken um bis zu 36 % verbessert. Unsere Arbeit stellt einen entscheidenden Schritt dar, um die IR-Bewertung an LLM-Konsumenten anzupassen, und ermöglicht eine zuverlässigere Bewertung von RAG-Komponenten.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR,
assume that human users sequentially examine documents with diminishing
attention to lower ranks. This assumption breaks down in Retrieval Augmented
Generation (RAG) systems, where search results are consumed by Large Language
Models (LLMs), which, unlike humans, process all retrieved documents as a whole
rather than sequentially. Additionally, traditional IR metrics do not account
for related but irrelevant documents that actively degrade generation quality,
rather than merely being ignored. Due to these two major misalignments, namely
human vs. machine position discount and human relevance vs. machine utility,
classical IR metrics do not accurately predict RAG performance. We introduce a
utility-based annotation schema that quantifies both the positive contribution
of relevant passages and the negative impact of distracting ones. Building on
this foundation, we propose UDCG (Utility and Distraction-aware Cumulative
Gain), a metric using an LLM-oriented positional discount to directly optimize
the correlation with the end-to-end answer accuracy. Experiments on five
datasets and six LLMs demonstrate that UDCG improves correlation by up to 36%
compared to traditional metrics. Our work provides a critical step toward
aligning IR evaluation with LLM consumers and enables more reliable assessment
of RAG components