ChatPaper.aiChatPaper

부분적 주석이 정보 검색에 미치는 D-MERIT 평가

Evaluating D-MERIT of Partial-annotation on Information Retrieval

June 23, 2024
저자: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI

초록

검색 모델은 종종 부분적으로 주석이 달린 데이터셋으로 평가됩니다. 각 쿼리는 몇 개의 관련 텍스트에 매핑되고, 나머지 코퍼스는 관련이 없는 것으로 간주됩니다. 결과적으로, 잘못된 부정 예(false negatives)를 성공적으로 검색해내는 모델은 평가에서 불이익을 받게 됩니다. 불행히도 모든 쿼리에 대해 모든 텍스트에 완전히 주석을 다는 것은 자원 효율적이지 않습니다. 본 연구에서는 평가에 부분적으로 주석이 달린 데이터셋을 사용하면 왜곡된 결과를 초래할 수 있음을 보여줍니다. 우리는 위키피디아에서 패시지 검색 평가 세트인 D-MERIT를 구축하여, 각 쿼리에 대한 모든 관련 패시지를 포함하고자 합니다. 쿼리는 특정 그룹(예: "언어학에 관한 저널")을 설명하고, 관련 패시지는 해당 그룹에 속하는 엔티티를 증명하는 증거(예: Language가 언어학에 관한 저널임을 나타내는 패시지)입니다. 우리는 관련 패시지의 일부만 주석이 달린 데이터셋으로 평가하면 검색 시스템의 순위가 오해를 불러일으킬 수 있으며, 평가 세트에 더 많은 관련 텍스트가 포함될수록 순위가 수렴됨을 보여줍니다. 우리는 이 데이터셋을 평가를 위한 자원으로 제안하고, 텍스트 검색을 위한 평가 세트에 주석을 달 때 자원 효율성과 신뢰할 수 있는 평가 사이의 균형을 맞추는 것을 권장합니다.
English
Retrieval models are often evaluated on partially-annotated datasets. Each query is mapped to a few relevant texts and the remaining corpus is assumed to be irrelevant. As a result, models that successfully retrieve false negatives are punished in evaluation. Unfortunately, completely annotating all texts for every query is not resource efficient. In this work, we show that using partially-annotated datasets in evaluation can paint a distorted picture. We curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to contain all relevant passages for each query. Queries describe a group (e.g., ``journals about linguistics'') and relevant passages are evidence that entities belong to the group (e.g., a passage indicating that Language is a journal about linguistics). We show that evaluating on a dataset containing annotations for only a subset of the relevant passages might result in misleading ranking of the retrieval systems and that as more relevant texts are included in the evaluation set, the rankings converge. We propose our dataset as a resource for evaluation and our study as a recommendation for balance between resource-efficiency and reliable evaluation when annotating evaluation sets for text retrieval.

Summary

AI-Generated Summary

PDF362November 29, 2024