Evaluatie van D-MERIT voor gedeeltelijke annotatie bij informatie-ontsluiting

Samenvatting

Retrievalmodellen worden vaak geëvalueerd op gedeeltelijk geannoteerde datasets. Elke query wordt gekoppeld aan enkele relevante teksten, en de rest van het corpus wordt als irrelevant beschouwd. Als gevolg daarvan worden modellen die succesvol valse negatieven ophalen, gestraft tijdens de evaluatie. Helaas is het volledig annoteren van alle teksten voor elke query niet efficiënt in termen van middelen. In dit werk tonen we aan dat het gebruik van gedeeltelijk geannoteerde datasets in evaluaties een vertekend beeld kan geven. We hebben D-MERIT samengesteld, een evaluatieset voor passage retrieval van Wikipedia, met als doel alle relevante passages voor elke query te bevatten. Queries beschrijven een groep (bijvoorbeeld "tijdschriften over taalkunde") en relevante passages zijn bewijs dat entiteiten tot de groep behoren (bijvoorbeeld een passage die aangeeft dat Language een tijdschrift over taalkunde is). We laten zien dat evalueren op een dataset die alleen annotaties bevat voor een subset van de relevante passages kan leiden tot misleidende rangschikking van de retrievalsystemen, en dat naarmate meer relevante teksten worden opgenomen in de evaluatieset, de rangschikkingen convergeren. We stellen onze dataset voor als een bron voor evaluatie en onze studie als een aanbeveling voor een balans tussen efficiënt gebruik van middelen en betrouwbare evaluatie bij het annoteren van evaluatiesets voor tekstretrieval.

English

Retrieval models are often evaluated on partially-annotated datasets. Each query is mapped to a few relevant texts and the remaining corpus is assumed to be irrelevant. As a result, models that successfully retrieve false negatives are punished in evaluation. Unfortunately, completely annotating all texts for every query is not resource efficient. In this work, we show that using partially-annotated datasets in evaluation can paint a distorted picture. We curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to contain all relevant passages for each query. Queries describe a group (e.g., ``journals about linguistics'') and relevant passages are evidence that entities belong to the group (e.g., a passage indicating that Language is a journal about linguistics). We show that evaluating on a dataset containing annotations for only a subset of the relevant passages might result in misleading ranking of the retrieval systems and that as more relevant texts are included in the evaluation set, the rankings converge. We propose our dataset as a resource for evaluation and our study as a recommendation for balance between resource-efficiency and reliable evaluation when annotating evaluation sets for text retrieval.

Evaluatie van D-MERIT voor gedeeltelijke annotatie bij informatie-ontsluiting

Evaluating D-MERIT of Partial-annotation on Information Retrieval

Samenvatting

Support