Redefinindo a Avaliação de Recuperação na Era dos LLMs
Redefining Retrieval Evaluation in the Era of LLMs
October 24, 2025
Autores: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI
Resumo
As métricas tradicionais de Recuperação de Informação (RI), como nDCG, MAP e MRR, partem do princípio de que os utilizadores humanos examinam documentos sequencialmente, com uma atenção decrescente para posições mais baixas no ranking. Esta premissa desfaz-se nos sistemas de Geração Aumentada por Recuperação (RAG), onde os resultados da pesquisa são consumidos por Modelos de Linguagem de Grande Escala (LLMs). Ao contrário dos humanos, os LLMs processam todos os documentos recuperados como um todo, e não sequencialmente. Adicionalmente, as métricas tradicionais de RI não consideram documentos relacionados mas irrelevantes que degradam ativamente a qualidade da geração, em vez de serem simplesmente ignorados. Devido a estes dois principais desalinhamentos — nomeadamente, o desconto posicional humano versus máquina e a relevância humana versus utilidade para a máquina — as métricas clássicas de RI não preveem com precisão o desempenho dos sistemas RAG. Introduzimos um esquema de anotação baseado em utilidade que quantifica tanto a contribuição positiva de passagens relevantes como o impacto negativo de passagens distractoras. Com base neste fundamento, propomos o UDCG (Ganho Cumulativo Consciente de Utilidade e Distração), uma métrica que utiliza um desconto posicional orientado a LLMs para otimizar diretamente a correlação com a precisão da resposta de ponta a ponta. Experiências em cinco conjuntos de dados e seis LLMs demonstram que o UDCG melhora a correlação em até 36% em comparação com as métricas tradicionais. O nosso trabalho representa um passo crítico para o alinhamento da avaliação de RI com os consumidores LLM e permite uma avaliação mais fiável dos componentes RAG.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR,
assume that human users sequentially examine documents with diminishing
attention to lower ranks. This assumption breaks down in Retrieval Augmented
Generation (RAG) systems, where search results are consumed by Large Language
Models (LLMs), which, unlike humans, process all retrieved documents as a whole
rather than sequentially. Additionally, traditional IR metrics do not account
for related but irrelevant documents that actively degrade generation quality,
rather than merely being ignored. Due to these two major misalignments, namely
human vs. machine position discount and human relevance vs. machine utility,
classical IR metrics do not accurately predict RAG performance. We introduce a
utility-based annotation schema that quantifies both the positive contribution
of relevant passages and the negative impact of distracting ones. Building on
this foundation, we propose UDCG (Utility and Distraction-aware Cumulative
Gain), a metric using an LLM-oriented positional discount to directly optimize
the correlation with the end-to-end answer accuracy. Experiments on five
datasets and six LLMs demonstrate that UDCG improves correlation by up to 36%
compared to traditional metrics. Our work provides a critical step toward
aligning IR evaluation with LLM consumers and enables more reliable assessment
of RAG components