Het herdefiniëren van retrieval-evaluatie in het tijdperk van grote taalmodellen
Redefining Retrieval Evaluation in the Era of LLMs
October 24, 2025
Auteurs: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI
Samenvatting
Traditionele informatie-retrieval (IR) metrieken, zoals nDCG, MAP en MRR, gaan ervan uit dat menselijke gebruikers documenten sequentieel onderzoeken met afnemende aandacht voor lagere posities. Deze aanname gaat niet op bij Retrieval Augmented Generation (RAG)-systemen, waar zoekresultaten worden verwerkt door Large Language Models (LLM's). In tegenstelling tot mensen verwerken LLM's alle opgehaalde documenten als een geheel in plaats van sequentieel. Bovendien houden traditionele IR-metrieken geen rekening met gerelateerde maar irrelevante documenten die de generatiedirect actief verslechteren, in plaats van dat ze slechts worden genegeerd. Door deze twee grote verschuivingen, namelijk de positiekorting voor mensen versus machines en menselijke relevantie versus machine-nut, voorspellen klassieke IR-metrieken de RAG-prestaties niet nauwkeurig. Wij introduceren een op nut gebaseerd annotatieschema dat zowel de positieve bijdrage van relevante passages als de negatieve impact van afleidende passages kwantificeert. Op basis hiervan stellen wij UDCG (Utility and Distraction-aware Cumulative Gain) voor, een metriek die een op LLM's gerichte positiekorting gebruikt om de correlatie met de end-to-end antwoordnauwkeurigheid direct te optimaliseren. Experimenten op vijf datasets en met zes LLM's tonen aan dat UDCG de correlatie met tot 36% verbetert in vergelijking met traditionele metrieken. Ons werk vormt een cruciale stap naar het afstemmen van IR-evaluatie op LLM-gebruikers en maakt een betrouwbaardere beoordeling van RAG-componenten mogelijk.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR,
assume that human users sequentially examine documents with diminishing
attention to lower ranks. This assumption breaks down in Retrieval Augmented
Generation (RAG) systems, where search results are consumed by Large Language
Models (LLMs), which, unlike humans, process all retrieved documents as a whole
rather than sequentially. Additionally, traditional IR metrics do not account
for related but irrelevant documents that actively degrade generation quality,
rather than merely being ignored. Due to these two major misalignments, namely
human vs. machine position discount and human relevance vs. machine utility,
classical IR metrics do not accurately predict RAG performance. We introduce a
utility-based annotation schema that quantifies both the positive contribution
of relevant passages and the negative impact of distracting ones. Building on
this foundation, we propose UDCG (Utility and Distraction-aware Cumulative
Gain), a metric using an LLM-oriented positional discount to directly optimize
the correlation with the end-to-end answer accuracy. Experiments on five
datasets and six LLMs demonstrate that UDCG improves correlation by up to 36%
compared to traditional metrics. Our work provides a critical step toward
aligning IR evaluation with LLM consumers and enables more reliable assessment
of RAG components