Evaluatie van D-MERIT voor gedeeltelijke annotatie bij informatie-ontsluiting
Evaluating D-MERIT of Partial-annotation on Information Retrieval
June 23, 2024
Auteurs: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI
Samenvatting
Retrievalmodellen worden vaak geëvalueerd op gedeeltelijk geannoteerde datasets. Elke query wordt gekoppeld aan enkele relevante teksten, en de rest van het corpus wordt als irrelevant beschouwd. Als gevolg daarvan worden modellen die succesvol valse negatieven ophalen, gestraft tijdens de evaluatie. Helaas is het volledig annoteren van alle teksten voor elke query niet efficiënt in termen van middelen. In dit werk tonen we aan dat het gebruik van gedeeltelijk geannoteerde datasets in evaluaties een vertekend beeld kan geven. We hebben D-MERIT samengesteld, een evaluatieset voor passage retrieval van Wikipedia, met als doel alle relevante passages voor elke query te bevatten. Queries beschrijven een groep (bijvoorbeeld "tijdschriften over taalkunde") en relevante passages zijn bewijs dat entiteiten tot de groep behoren (bijvoorbeeld een passage die aangeeft dat Language een tijdschrift over taalkunde is). We laten zien dat evalueren op een dataset die alleen annotaties bevat voor een subset van de relevante passages kan leiden tot misleidende rangschikking van de retrievalsystemen, en dat naarmate meer relevante teksten worden opgenomen in de evaluatieset, de rangschikkingen convergeren. We stellen onze dataset voor als een bron voor evaluatie en onze studie als een aanbeveling voor een balans tussen efficiënt gebruik van middelen en betrouwbare evaluatie bij het annoteren van evaluatiesets voor tekstretrieval.
English
Retrieval models are often evaluated on partially-annotated datasets. Each
query is mapped to a few relevant texts and the remaining corpus is assumed to
be irrelevant. As a result, models that successfully retrieve false negatives
are punished in evaluation. Unfortunately, completely annotating all texts for
every query is not resource efficient. In this work, we show that using
partially-annotated datasets in evaluation can paint a distorted picture. We
curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to
contain all relevant passages for each query. Queries describe a group (e.g.,
``journals about linguistics'') and relevant passages are evidence that
entities belong to the group (e.g., a passage indicating that Language is a
journal about linguistics). We show that evaluating on a dataset containing
annotations for only a subset of the relevant passages might result in
misleading ranking of the retrieval systems and that as more relevant texts are
included in the evaluation set, the rankings converge. We propose our dataset
as a resource for evaluation and our study as a recommendation for balance
between resource-efficiency and reliable evaluation when annotating evaluation
sets for text retrieval.