部分アノテーションが情報検索に与えるD-MERITの評価
Evaluating D-MERIT of Partial-annotation on Information Retrieval
June 23, 2024
著者: Royi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg
cs.AI
要旨
検索モデルは、部分的にアノテーションされたデータセットで評価されることが多い。各クエリは少数の関連テキストにマッピングされ、残りのコーパスは無関係であると仮定される。その結果、誤検出を成功裏に検索するモデルは評価においてペナルティを受ける。残念ながら、すべてのクエリに対してすべてのテキストを完全にアノテーションすることはリソース効率的ではない。本研究では、部分的にアノテーションされたデータセットを評価に使用すると、歪んだ結果が得られる可能性があることを示す。我々は、Wikipediaからパッセージ検索評価セットであるD-MERITをキュレーションし、各クエリに対してすべての関連パッセージを含めることを目指した。クエリはグループ(例:「言語学に関するジャーナル」)を記述し、関連パッセージはエンティティがそのグループに属する証拠(例:「Languageは言語学に関するジャーナルである」と示すパッセージ)である。関連パッセージの一部のみがアノテーションされたデータセットで評価を行うと、検索システムのランキングが誤解を招く可能性があり、評価セットに含まれる関連テキストが増えるにつれてランキングが収束することを示す。我々は、このデータセットを評価リソースとして提案し、テキスト検索の評価セットをアノテーションする際に、リソース効率性と信頼性のある評価のバランスを取るための推奨事項として本研究を提示する。
English
Retrieval models are often evaluated on partially-annotated datasets. Each
query is mapped to a few relevant texts and the remaining corpus is assumed to
be irrelevant. As a result, models that successfully retrieve false negatives
are punished in evaluation. Unfortunately, completely annotating all texts for
every query is not resource efficient. In this work, we show that using
partially-annotated datasets in evaluation can paint a distorted picture. We
curate D-MERIT, a passage retrieval evaluation set from Wikipedia, aspiring to
contain all relevant passages for each query. Queries describe a group (e.g.,
``journals about linguistics'') and relevant passages are evidence that
entities belong to the group (e.g., a passage indicating that Language is a
journal about linguistics). We show that evaluating on a dataset containing
annotations for only a subset of the relevant passages might result in
misleading ranking of the retrieval systems and that as more relevant texts are
included in the evaluation set, the rankings converge. We propose our dataset
as a resource for evaluation and our study as a recommendation for balance
between resource-efficiency and reliable evaluation when annotating evaluation
sets for text retrieval.Summary
AI-Generated Summary