ChatPaper.aiChatPaper

Redéfinition de l'évaluation des systèmes de recherche à l'ère des LLM

Redefining Retrieval Evaluation in the Era of LLMs

October 24, 2025
papers.authors: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI

papers.abstract

Les métriques traditionnelles de recherche d'information (RI), telles que le nDCG, le MAP et le MRR, supposent que les utilisateurs humains examinent les documents séquentiellement avec une attention décroissante pour les rangs inférieurs. Cette hypothèse ne tient pas dans les systèmes de Génération Augmentée par la Recherche (RAG), où les résultats de recherche sont consommés par des modèles de langage de grande taille (LLM) qui, contrairement aux humains, traitent l'ensemble des documents récupérés globalement plutôt que séquentiellement. De plus, les métriques traditionnelles de RI ne prennent pas en compte les documents connexes mais non pertinents qui dégradent activement la qualité de la génération, au lieu d'être simplement ignorés. En raison de ces deux désalignements majeurs, à savoir l'actualisation positionnelle humaine contre machine et la pertinence humaine contre l'utilité machine, les métriques classiques de RI ne prédisent pas avec précision les performances des systèmes RAG. Nous introduisons un schéma d'annotation basé sur l'utilité qui quantifie à la fois la contribution positive des passages pertinents et l'impact négatif des passages distracteurs. Sur cette base, nous proposons l'UDCG (Gain Cumulatif Sensible à l'Utilité et à la Distraction), une métrique utilisant une actualisation positionnelle orientée LLM pour optimiser directement la corrélation avec la précision des réponses de bout en bout. Les expériences sur cinq jeux de données et six LLM démontrent que l'UDCG améliore la corrélation jusqu'à 36 % par rapport aux métriques traditionnelles. Notre travail constitue une étape cruciale vers l'alignement de l'évaluation en RI avec les consommateurs de type LLM et permet une évaluation plus fiable des composants RAG.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR, assume that human users sequentially examine documents with diminishing attention to lower ranks. This assumption breaks down in Retrieval Augmented Generation (RAG) systems, where search results are consumed by Large Language Models (LLMs), which, unlike humans, process all retrieved documents as a whole rather than sequentially. Additionally, traditional IR metrics do not account for related but irrelevant documents that actively degrade generation quality, rather than merely being ignored. Due to these two major misalignments, namely human vs. machine position discount and human relevance vs. machine utility, classical IR metrics do not accurately predict RAG performance. We introduce a utility-based annotation schema that quantifies both the positive contribution of relevant passages and the negative impact of distracting ones. Building on this foundation, we propose UDCG (Utility and Distraction-aware Cumulative Gain), a metric using an LLM-oriented positional discount to directly optimize the correlation with the end-to-end answer accuracy. Experiments on five datasets and six LLMs demonstrate that UDCG improves correlation by up to 36% compared to traditional metrics. Our work provides a critical step toward aligning IR evaluation with LLM consumers and enables more reliable assessment of RAG components
PDF72December 17, 2025