Bewertung von D-MERIT der teilweisen Annotation bei der Informationssuche
Evaluating D-MERIT of Partial-annotation on Information Retrieval
June 23, 2024
Autoren: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI
Zusammenfassung
Rückgewinnungsmodelle werden oft an teilweise annotierten Datensätzen evaluiert. Jede Abfrage wird einigen relevanten Texten zugeordnet, während angenommen wird, dass der restliche Korpus irrelevant ist. Als Ergebnis werden Modelle, die erfolgreich falsche Negative abrufen, bei der Evaluation bestraft. Leider ist es nicht ressourceneffizient, alle Texte für jede Abfrage vollständig zu annotieren. In dieser Arbeit zeigen wir, dass die Verwendung von teilweise annotierten Datensätzen bei der Evaluation ein verzerrtes Bild liefern kann. Wir kuratieren D-MERIT, einen Passage-Rückgewinnungsevaluierungssatz aus Wikipedia, der darauf abzielt, alle relevanten Passagen für jede Abfrage zu enthalten. Abfragen beschreiben eine Gruppe (z. B. "Zeitschriften über Linguistik") und relevante Passagen sind Hinweise darauf, dass Entitäten zu dieser Gruppe gehören (z. B. eine Passage, die besagt, dass Language eine Zeitschrift über Linguistik ist). Wir zeigen, dass die Evaluation anhand eines Datensatzes, der nur für eine Teilmenge der relevanten Passagen Annotationen enthält, zu einer irreführenden Rangfolge der Rückgewinnungssysteme führen kann und dass die Rangfolgen konvergieren, wenn mehr relevante Texte in den Evaluierungssatz einbezogen werden. Wir schlagen unseren Datensatz als Ressource für die Evaluation und unsere Studie als Empfehlung für das Gleichgewicht zwischen Ressourceneffizienz und zuverlässiger Evaluation bei der Annotation von Evaluierungssätzen für Text-Rückgewinnung vor.
English
Retrieval models are often evaluated on partially-annotated datasets. Each
query is mapped to a few relevant texts and the remaining corpus is assumed to
be irrelevant. As a result, models that successfully retrieve false negatives
are punished in evaluation. Unfortunately, completely annotating all texts for
every query is not resource efficient. In this work, we show that using
partially-annotated datasets in evaluation can paint a distorted picture. We
curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to
contain all relevant passages for each query. Queries describe a group (e.g.,
``journals about linguistics'') and relevant passages are evidence that
entities belong to the group (e.g., a passage indicating that Language is a
journal about linguistics). We show that evaluating on a dataset containing
annotations for only a subset of the relevant passages might result in
misleading ranking of the retrieval systems and that as more relevant texts are
included in the evaluation set, the rankings converge. We propose our dataset
as a resource for evaluation and our study as a recommendation for balance
between resource-efficiency and reliable evaluation when annotating evaluation
sets for text retrieval.Summary
AI-Generated Summary