ChatPaper.aiChatPaper

Valutazione di D-MERIT sull'annotazione parziale nel recupero delle informazioni

Evaluating D-MERIT of Partial-annotation on Information Retrieval

June 23, 2024
Autori: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI

Abstract

I modelli di retrieval vengono spesso valutati su dataset parzialmente annotati. Ogni query è associata a pochi testi rilevanti, mentre il resto del corpus è considerato irrilevante. Di conseguenza, i modelli che recuperano con successo falsi negativi vengono penalizzati durante la valutazione. Purtroppo, annotare completamente tutti i testi per ogni query non è efficiente in termini di risorse. In questo lavoro, dimostriamo che l'uso di dataset parzialmente annotati nella valutazione può fornire un quadro distorto. Abbiamo curato D-MERIT, un set di valutazione per il retrieval di passaggi tratti da Wikipedia, con l'obiettivo di includere tutti i passaggi rilevanti per ogni query. Le query descrivono un gruppo (ad esempio, "riviste di linguistica") e i passaggi rilevanti sono prove che le entità appartengono al gruppo (ad esempio, un passaggio che indica che Language è una rivista di linguistica). Mostriamo che valutare su un dataset contenente annotazioni solo per un sottoinsieme dei passaggi rilevanti può portare a una classifica fuorviante dei sistemi di retrieval e che, man mano che vengono inclusi più testi rilevanti nel set di valutazione, le classifiche convergono. Proponiamo il nostro dataset come risorsa per la valutazione e il nostro studio come raccomandazione per bilanciare efficienza delle risorse e valutazione affidabile durante l'annotazione di set di valutazione per il retrieval di testi.
English
Retrieval models are often evaluated on partially-annotated datasets. Each query is mapped to a few relevant texts and the remaining corpus is assumed to be irrelevant. As a result, models that successfully retrieve false negatives are punished in evaluation. Unfortunately, completely annotating all texts for every query is not resource efficient. In this work, we show that using partially-annotated datasets in evaluation can paint a distorted picture. We curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to contain all relevant passages for each query. Queries describe a group (e.g., ``journals about linguistics'') and relevant passages are evidence that entities belong to the group (e.g., a passage indicating that Language is a journal about linguistics). We show that evaluating on a dataset containing annotations for only a subset of the relevant passages might result in misleading ranking of the retrieval systems and that as more relevant texts are included in the evaluation set, the rankings converge. We propose our dataset as a resource for evaluation and our study as a recommendation for balance between resource-efficiency and reliable evaluation when annotating evaluation sets for text retrieval.
PDF362February 8, 2026