ChatPaper.aiChatPaper

Оценка D-MERIT частичной аннотации в информационном поиске

Evaluating D-MERIT of Partial-annotation on Information Retrieval

June 23, 2024
Авторы: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI

Аннотация

Модели извлечения часто оцениваются на частично аннотированных наборах данных. Каждый запрос сопоставляется с несколькими релевантными текстами, а оставшаяся корпусная коллекция считается несущественной. В результате модели, успешно извлекающие ложные отрицательные результаты, наказываются при оценке. К сожалению, полная аннотация всех текстов для каждого запроса не является ресурсоэффективной. В данной работе мы показываем, что использование частично аннотированных наборов данных при оценке может исказить картину. Мы создали D-MERIT, набор данных для оценки извлечения отрывков из Википедии, стремясь включить все релевантные отрывки для каждого запроса. Запросы описывают группу (например, "журналы о лингвистике"), а релевантные отрывки являются доказательством того, что сущности принадлежат к группе (например, отрывок, указывающий на то, что "Язык" - журнал о лингвистике). Мы показываем, что оценка на наборе данных, содержащем аннотации только для подмножества релевантных отрывков, может привести к вводящему в заблуждение ранжированию систем извлечения и что с увеличением количества релевантных текстов в наборе оценки ранжировки сходятся. Мы предлагаем наш набор данных в качестве ресурса для оценки и наше исследование в качестве рекомендации по балансу между ресурсоэффективностью и надежной оценкой при аннотировании наборов данных для извлечения текста.
English
Retrieval models are often evaluated on partially-annotated datasets. Each query is mapped to a few relevant texts and the remaining corpus is assumed to be irrelevant. As a result, models that successfully retrieve false negatives are punished in evaluation. Unfortunately, completely annotating all texts for every query is not resource efficient. In this work, we show that using partially-annotated datasets in evaluation can paint a distorted picture. We curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to contain all relevant passages for each query. Queries describe a group (e.g., ``journals about linguistics'') and relevant passages are evidence that entities belong to the group (e.g., a passage indicating that Language is a journal about linguistics). We show that evaluating on a dataset containing annotations for only a subset of the relevant passages might result in misleading ranking of the retrieval systems and that as more relevant texts are included in the evaluation set, the rankings converge. We propose our dataset as a resource for evaluation and our study as a recommendation for balance between resource-efficiency and reliable evaluation when annotating evaluation sets for text retrieval.

Summary

AI-Generated Summary

PDF362November 29, 2024