Evaluación del D-MERIT de la anotación parcial en la recuperación de información
Evaluating D-MERIT of Partial-annotation on Information Retrieval
June 23, 2024
Autores: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI
Resumen
Los modelos de recuperación de información suelen evaluarse en conjuntos de datos parcialmente anotados. Cada consulta se asocia con unos pocos textos relevantes, y se asume que el resto del corpus es irrelevante. Como resultado, los modelos que recuperan falsos negativos con éxito son penalizados en la evaluación. Desafortunadamente, anotar completamente todos los textos para cada consulta no es eficiente en términos de recursos. En este trabajo, demostramos que el uso de conjuntos de datos parcialmente anotados en la evaluación puede ofrecer una imagen distorsionada. Creamos D-MERIT, un conjunto de evaluación para la recuperación de pasajes basado en Wikipedia, con el objetivo de incluir todos los pasajes relevantes para cada consulta. Las consultas describen un grupo (por ejemplo, "revistas sobre lingüística") y los pasajes relevantes son evidencia de que las entidades pertenecen a dicho grupo (por ejemplo, un pasaje que indica que Language es una revista sobre lingüística). Mostramos que evaluar en un conjunto de datos que contiene anotaciones solo para un subconjunto de los pasajes relevantes puede resultar en una clasificación engañosa de los sistemas de recuperación, y que a medida que se incluyen más textos relevantes en el conjunto de evaluación, las clasificaciones convergen. Proponemos nuestro conjunto de datos como un recurso para la evaluación y nuestro estudio como una recomendación para equilibrar la eficiencia de recursos y la evaluación confiable al anotar conjuntos de evaluación para la recuperación de textos.
English
Retrieval models are often evaluated on partially-annotated datasets. Each
query is mapped to a few relevant texts and the remaining corpus is assumed to
be irrelevant. As a result, models that successfully retrieve false negatives
are punished in evaluation. Unfortunately, completely annotating all texts for
every query is not resource efficient. In this work, we show that using
partially-annotated datasets in evaluation can paint a distorted picture. We
curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to
contain all relevant passages for each query. Queries describe a group (e.g.,
``journals about linguistics'') and relevant passages are evidence that
entities belong to the group (e.g., a passage indicating that Language is a
journal about linguistics). We show that evaluating on a dataset containing
annotations for only a subset of the relevant passages might result in
misleading ranking of the retrieval systems and that as more relevant texts are
included in the evaluation set, the rankings converge. We propose our dataset
as a resource for evaluation and our study as a recommendation for balance
between resource-efficiency and reliable evaluation when annotating evaluation
sets for text retrieval.