Переосмысление оценки качества поиска в эпоху больших языковых моделей
Redefining Retrieval Evaluation in the Era of LLMs
October 24, 2025
Авторы: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri
cs.AI
Аннотация
Традиционные метрики информационного поиска (ИП), такие как nDCG, MAP и MRR, предполагают, что пользователи-люди последовательно просматривают документы с уменьшающимся вниманием к более низким позициям в ранжировании. Это предположение не работает в системах генерации с усилением поиском (RAG), где результаты поиска потребляются большими языковыми моделями (LLM), которые, в отличие от людей, обрабатывают все извлеченные документы как единое целое, а не последовательно. Кроме того, традиционные метрики ИП не учитывают связанные, но нерелевантные документы, которые активно ухудшают качество генерации, а не просто игнорируются. Из-за этих двух основных несоответствий, а именно: дисконтирование позиции для человека против машины и релевантность для человека против полезности для машины, классические метрики ИП не позволяют точно прогнозировать производительность RAG. Мы представляем схему разметки на основе полезности, которая количественно оценивает как позитивный вклад релевантных пассажей, так и негативное влияние отвлекающих. На основе этого мы предлагаем UDCG (Накопленный выигрыш с учетом полезности и отвлечения) — метрику, использующую позиционное дисконтирование, ориентированное на LLM, для прямой оптимизации корреляции с точностью ответа в end-to-end сценарии. Эксперименты на пяти наборах данных и шести LLM демонстрируют, что UDCG улучшает корреляцию до 36% по сравнению с традиционными метриками. Наша работа представляет собой важный шаг к согласованию оценки ИП с потребителями-LLM и позволяет проводить более надежную оценку компонентов RAG.
English
Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR,
assume that human users sequentially examine documents with diminishing
attention to lower ranks. This assumption breaks down in Retrieval Augmented
Generation (RAG) systems, where search results are consumed by Large Language
Models (LLMs), which, unlike humans, process all retrieved documents as a whole
rather than sequentially. Additionally, traditional IR metrics do not account
for related but irrelevant documents that actively degrade generation quality,
rather than merely being ignored. Due to these two major misalignments, namely
human vs. machine position discount and human relevance vs. machine utility,
classical IR metrics do not accurately predict RAG performance. We introduce a
utility-based annotation schema that quantifies both the positive contribution
of relevant passages and the negative impact of distracting ones. Building on
this foundation, we propose UDCG (Utility and Distraction-aware Cumulative
Gain), a metric using an LLM-oriented positional discount to directly optimize
the correlation with the end-to-end answer accuracy. Experiments on five
datasets and six LLMs demonstrate that UDCG improves correlation by up to 36%
compared to traditional metrics. Our work provides a critical step toward
aligning IR evaluation with LLM consumers and enables more reliable assessment
of RAG components