ChatPaper.aiChatPaper

LLM 시대의 검색 평가 재정의

Redefining Retrieval Evaluation in the Era of LLMs

October 24, 2025
저자: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI

초록

기존의 nDCG, MAP, MRR과 같은 정보 검색(IR) 평가 지표들은 인간 사용자가 문서를 순차적으로 검토하며 낮은 순위에 대한 주의도가 점차 감소한다는 가정에 기반합니다. 이러한 가정은 검색 결과가 대형 언어 모델(LLM)에 의해 소비되는 검색 증강 생성(RAG) 시스템에서는 무너집니다. 인간과 달리 LLM은 검색된 모든 문서를 순차적으로가 아닌 전체적으로 처리하기 때문입니다. 또한 기존 IR 지표는 생성 품질을 저하시키는 관련성 없는 문서(단순히 무시되는 것이 아니라 적극적으로 해를 끼치는 경우)를 고려하지 않습니다. 인간 대 기계의 위치 할인과 인간의 관련성 대 기계의 유용성이라는 두 가지 주요 불일치로 인해 기존 IR 지표는 RAG 성능을 정확히 예측하지 못합니다. 본 연구에서는 관련 문단의 긍정적 기여와 방해 문단의 부정적 영향을 모두 정량화하는 유용성 기반 주석 체계를 소개합니다. 이를 바탕으로 LLM 지향적 위치 할인을 사용하여 종단간 답변 정확도와의 상관관계를 직접 최적화하는 지표인 UDCG(Utility and Distraction-aware Cumulative Gain)를 제안합니다. 5개 데이터셋과 6개 LLM에 대한 실험 결과, UDCG는 기존 지표 대비 최대 36%까지 상관관계를 향상시키는 것으로 나타났습니다. 본 연구는 IR 평가를 LLM 소비자에 맞추는 중요한 진전을 이루었으며 RAG 구성 요소의 보다 신뢰할 수 있는 평가를 가능하게 합니다.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR, assume that human users sequentially examine documents with diminishing attention to lower ranks. This assumption breaks down in Retrieval Augmented Generation (RAG) systems, where search results are consumed by Large Language Models (LLMs), which, unlike humans, process all retrieved documents as a whole rather than sequentially. Additionally, traditional IR metrics do not account for related but irrelevant documents that actively degrade generation quality, rather than merely being ignored. Due to these two major misalignments, namely human vs. machine position discount and human relevance vs. machine utility, classical IR metrics do not accurately predict RAG performance. We introduce a utility-based annotation schema that quantifies both the positive contribution of relevant passages and the negative impact of distracting ones. Building on this foundation, we propose UDCG (Utility and Distraction-aware Cumulative Gain), a metric using an LLM-oriented positional discount to directly optimize the correlation with the end-to-end answer accuracy. Experiments on five datasets and six LLMs demonstrate that UDCG improves correlation by up to 36% compared to traditional metrics. Our work provides a critical step toward aligning IR evaluation with LLM consumers and enables more reliable assessment of RAG components
PDF72December 17, 2025