ChatPaper.aiChatPaper

Redefiniendo la Evaluación de Recuperación en la Era de los Modelos de Lenguaje Grandes

Redefining Retrieval Evaluation in the Era of LLMs

October 24, 2025
Autores: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI

Resumen

Las métricas tradicionales de Recuperación de Información (RI), como nDCG, MAP y MRR, asumen que los usuarios humanos examinan los documentos de forma secuencial, con una atención decreciente hacia los rangos inferiores. Esta suposición se desmorona en los sistemas de Generación Aumentada por Recuperación (RAG), donde los resultados de búsqueda son consumidos por Modelos de Lenguaje Grandes (LLMs), los cuales, a diferencia de los humanos, procesan todos los documentos recuperados como un conjunto en lugar de hacerlo secuencialmente. Adicionalmente, las métricas tradicionales de RI no tienen en cuenta los documentos relacionados pero irrelevantes que degradan activamente la calidad de la generación, en lugar de ser simplemente ignorados. Debido a estos dos desajustes principales, a saber, el descuento posicional humano versus máquina y la relevancia humana versus la utilidad para la máquina, las métricas clásicas de RI no predicen con precisión el rendimiento de los sistemas RAG. Introducimos un esquema de anotación basado en utilidad que cuantifica tanto la contribución positiva de los pasajes relevantes como el impacto negativo de los distractores. Sobre esta base, proponemos UDCG (Ganancia Acumulada Consciente de la Utilidad y la Distracción), una métrica que utiliza un descuento posicional orientado a LLMs para optimizar directamente la correlación con la precisión de la respuesta de extremo a extremo. Los experimentos en cinco conjuntos de datos y seis LLMs demuestran que UDCG mejora la correlación hasta en un 36% en comparación con las métricas tradicionales. Nuestro trabajo representa un paso crítico hacia la alineación de la evaluación de RI con los consumidores LLM y permite una evaluación más fiable de los componentes RAG.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR, assume that human users sequentially examine documents with diminishing attention to lower ranks. This assumption breaks down in Retrieval Augmented Generation (RAG) systems, where search results are consumed by Large Language Models (LLMs), which, unlike humans, process all retrieved documents as a whole rather than sequentially. Additionally, traditional IR metrics do not account for related but irrelevant documents that actively degrade generation quality, rather than merely being ignored. Due to these two major misalignments, namely human vs. machine position discount and human relevance vs. machine utility, classical IR metrics do not accurately predict RAG performance. We introduce a utility-based annotation schema that quantifies both the positive contribution of relevant passages and the negative impact of distracting ones. Building on this foundation, we propose UDCG (Utility and Distraction-aware Cumulative Gain), a metric using an LLM-oriented positional discount to directly optimize the correlation with the end-to-end answer accuracy. Experiments on five datasets and six LLMs demonstrate that UDCG improves correlation by up to 36% compared to traditional metrics. Our work provides a critical step toward aligning IR evaluation with LLM consumers and enables more reliable assessment of RAG components
PDF72December 17, 2025