ChatPaper.aiChatPaper

Avaliando o D-MERIT da Anotação Parcial na Recuperação de Informações

Evaluating D-MERIT of Partial-annotation on Information Retrieval

June 23, 2024
Autores: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI

Resumo

Os modelos de recuperação são frequentemente avaliados em conjuntos de dados parcialmente anotados. Cada consulta é mapeada para alguns textos relevantes e assume-se que o restante do corpus é irrelevante. Como resultado, os modelos que recuperam com sucesso falsos negativos são penalizados na avaliação. Infelizmente, anotar completamente todos os textos para cada consulta não é eficiente em termos de recursos. Neste trabalho, demonstramos que o uso de conjuntos de dados parcialmente anotados na avaliação pode distorcer a imagem. Criamos o D-MERIT, um conjunto de avaliação de recuperação de passagens da Wikipedia, aspirando a conter todas as passagens relevantes para cada consulta. As consultas descrevem um grupo (por exemplo, "revistas sobre linguística") e as passagens relevantes são evidências de que as entidades pertencem ao grupo (por exemplo, uma passagem indicando que Linguagem é uma revista sobre linguística). Mostramos que avaliar em um conjunto de dados contendo anotações apenas para um subconjunto das passagens relevantes pode resultar em classificações enganosas dos sistemas de recuperação e que, à medida que mais textos relevantes são incluídos no conjunto de avaliação, as classificações convergem. Propomos nosso conjunto de dados como um recurso para avaliação e nosso estudo como uma recomendação para equilibrar entre eficiência de recursos e avaliação confiável ao anotar conjuntos de avaliação para recuperação de texto.
English
Retrieval models are often evaluated on partially-annotated datasets. Each query is mapped to a few relevant texts and the remaining corpus is assumed to be irrelevant. As a result, models that successfully retrieve false negatives are punished in evaluation. Unfortunately, completely annotating all texts for every query is not resource efficient. In this work, we show that using partially-annotated datasets in evaluation can paint a distorted picture. We curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to contain all relevant passages for each query. Queries describe a group (e.g., ``journals about linguistics'') and relevant passages are evidence that entities belong to the group (e.g., a passage indicating that Language is a journal about linguistics). We show that evaluating on a dataset containing annotations for only a subset of the relevant passages might result in misleading ranking of the retrieval systems and that as more relevant texts are included in the evaluation set, the rankings converge. We propose our dataset as a resource for evaluation and our study as a recommendation for balance between resource-efficiency and reliable evaluation when annotating evaluation sets for text retrieval.
PDF362November 29, 2024