Ridefinire la valutazione del retrieval nell'era degli LLM
Redefining Retrieval Evaluation in the Era of LLMs
October 24, 2025
Autori: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI
Abstract
Le metriche tradizionali di Information Retrieval (IR), come nDCG, MAP e MRR, presuppongono che gli utenti umani esaminino sequenzialmente i documenti con un'attenzione decrescente verso i ranghi inferiori. Questo presupposto non è valido nei sistemi di Retrieval Augmented Generation (RAG), dove i risultati della ricerca sono consumati da Large Language Model (LLM), i quali, a differenza degli umani, elaborano tutti i documenti recuperati come un insieme piuttosto che in sequenza. Inoltre, le metriche IR tradizionali non tengono conto dei documenti correlati ma irrilevanti che degradano attivamente la qualità della generazione, anziché essere semplicemente ignorati. A causa di questi due principali disallineamenti, ovvero lo sconto posizionale umano vs. macchina e la rilevanza umana vs. l'utilità per la macchina, le metriche IR classiche non predicono accuratamente le prestazioni dei RAG. Introduciamo uno schema di annotazione basato sull'utilità che quantifica sia il contributo positivo dei passaggi rilevanti che l'impatto negativo di quelli distraenti. Basandoci su questo fondamento, proponiamo l'UDCG (Utility and Distraction-aware Cumulative Gain), una metrica che utilizza uno sconto posizionale orientato agli LLM per ottimizzare direttamente la correlazione con l'accuratezza end-to-end della risposta. Esperimenti su cinque dataset e sei LLM dimostrano che l'UDCG migliora la correlazione fino al 36% rispetto alle metriche tradizionali. Il nostro lavoro rappresenta un passo cruciale verso l'allineamento della valutazione dell'IR con i consumatori LLM e consente una valutazione più affidabile dei componenti RAG.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR,
assume that human users sequentially examine documents with diminishing
attention to lower ranks. This assumption breaks down in Retrieval Augmented
Generation (RAG) systems, where search results are consumed by Large Language
Models (LLMs), which, unlike humans, process all retrieved documents as a whole
rather than sequentially. Additionally, traditional IR metrics do not account
for related but irrelevant documents that actively degrade generation quality,
rather than merely being ignored. Due to these two major misalignments, namely
human vs. machine position discount and human relevance vs. machine utility,
classical IR metrics do not accurately predict RAG performance. We introduce a
utility-based annotation schema that quantifies both the positive contribution
of relevant passages and the negative impact of distracting ones. Building on
this foundation, we propose UDCG (Utility and Distraction-aware Cumulative
Gain), a metric using an LLM-oriented positional discount to directly optimize
the correlation with the end-to-end answer accuracy. Experiments on five
datasets and six LLMs demonstrate that UDCG improves correlation by up to 36%
compared to traditional metrics. Our work provides a critical step toward
aligning IR evaluation with LLM consumers and enables more reliable assessment
of RAG components