Évaluation de D-MERIT de l'annotation partielle sur la recherche d'information
Evaluating D-MERIT of Partial-annotation on Information Retrieval
June 23, 2024
Auteurs: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI
Résumé
Les modèles de recherche d'information sont souvent évalués sur des ensembles de données partiellement annotés. Chaque requête est associée à quelques textes pertinents, tandis que le reste du corpus est supposé non pertinent. Par conséquent, les modèles qui parviennent à retrouver des faux négatifs sont pénalisés lors de l'évaluation. Malheureusement, annoter complètement tous les textes pour chaque requête n'est pas efficace en termes de ressources. Dans ce travail, nous montrons que l'utilisation d'ensembles de données partiellement annotés pour l'évaluation peut donner une image déformée. Nous avons constitué D-MERIT, un ensemble d'évaluation pour la recherche de passages extraits de Wikipédia, visant à inclure tous les passages pertinents pour chaque requête. Les requêtes décrivent un groupe (par exemple, "revues sur la linguistique") et les passages pertinents sont des preuves que des entités appartiennent à ce groupe (par exemple, un passage indiquant que Language est une revue sur la linguistique). Nous montrons qu'évaluer sur un ensemble de données contenant des annotations pour seulement un sous-ensemble des passages pertinents peut conduire à un classement trompeur des systèmes de recherche, et qu'à mesure que davantage de textes pertinents sont inclus dans l'ensemble d'évaluation, les classements convergent. Nous proposons notre ensemble de données comme ressource pour l'évaluation et notre étude comme une recommandation pour trouver un équilibre entre l'efficacité des ressources et une évaluation fiable lors de l'annotation d'ensembles d'évaluation pour la recherche de textes.
English
Retrieval models are often evaluated on partially-annotated datasets. Each
query is mapped to a few relevant texts and the remaining corpus is assumed to
be irrelevant. As a result, models that successfully retrieve false negatives
are punished in evaluation. Unfortunately, completely annotating all texts for
every query is not resource efficient. In this work, we show that using
partially-annotated datasets in evaluation can paint a distorted picture. We
curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to
contain all relevant passages for each query. Queries describe a group (e.g.,
``journals about linguistics'') and relevant passages are evidence that
entities belong to the group (e.g., a passage indicating that Language is a
journal about linguistics). We show that evaluating on a dataset containing
annotations for only a subset of the relevant passages might result in
misleading ranking of the retrieval systems and that as more relevant texts are
included in the evaluation set, the rankings converge. We propose our dataset
as a resource for evaluation and our study as a recommendation for balance
between resource-efficiency and reliable evaluation when annotating evaluation
sets for text retrieval.Summary
AI-Generated Summary