Valutazione di D-MERIT sull'annotazione parziale nel recupero delle informazioni
Evaluating D-MERIT of Partial-annotation on Information Retrieval
June 23, 2024
Autori: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI
Abstract
I modelli di retrieval vengono spesso valutati su dataset parzialmente annotati. Ogni query è associata a pochi testi rilevanti, mentre il resto del corpus è considerato irrilevante. Di conseguenza, i modelli che recuperano con successo falsi negativi vengono penalizzati durante la valutazione. Purtroppo, annotare completamente tutti i testi per ogni query non è efficiente in termini di risorse. In questo lavoro, dimostriamo che l'uso di dataset parzialmente annotati nella valutazione può fornire un quadro distorto. Abbiamo curato D-MERIT, un set di valutazione per il retrieval di passaggi tratti da Wikipedia, con l'obiettivo di includere tutti i passaggi rilevanti per ogni query. Le query descrivono un gruppo (ad esempio, "riviste di linguistica") e i passaggi rilevanti sono prove che le entità appartengono al gruppo (ad esempio, un passaggio che indica che Language è una rivista di linguistica). Mostriamo che valutare su un dataset contenente annotazioni solo per un sottoinsieme dei passaggi rilevanti può portare a una classifica fuorviante dei sistemi di retrieval e che, man mano che vengono inclusi più testi rilevanti nel set di valutazione, le classifiche convergono. Proponiamo il nostro dataset come risorsa per la valutazione e il nostro studio come raccomandazione per bilanciare efficienza delle risorse e valutazione affidabile durante l'annotazione di set di valutazione per il retrieval di testi.
English
Retrieval models are often evaluated on partially-annotated datasets. Each
query is mapped to a few relevant texts and the remaining corpus is assumed to
be irrelevant. As a result, models that successfully retrieve false negatives
are punished in evaluation. Unfortunately, completely annotating all texts for
every query is not resource efficient. In this work, we show that using
partially-annotated datasets in evaluation can paint a distorted picture. We
curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to
contain all relevant passages for each query. Queries describe a group (e.g.,
``journals about linguistics'') and relevant passages are evidence that
entities belong to the group (e.g., a passage indicating that Language is a
journal about linguistics). We show that evaluating on a dataset containing
annotations for only a subset of the relevant passages might result in
misleading ranking of the retrieval systems and that as more relevant texts are
included in the evaluation set, the rankings converge. We propose our dataset
as a resource for evaluation and our study as a recommendation for balance
between resource-efficiency and reliable evaluation when annotating evaluation
sets for text retrieval.