ChatPaper.aiChatPaper

QUEST: 暗黙の集合操作を含むエンティティ検索クエリの検索データセット

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

May 19, 2023
著者: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
cs.AI

要旨

選択的な情報ニーズを定式化すると、集合演算(積集合、和集合、差集合など)を暗黙的に指定するクエリが生成されます。例えば、「シギではないシギ科の鳥」や「イギリスで撮影されたSF映画」といった検索が該当します。このような情報ニーズを満たす検索システムの能力を研究するため、私たちはQUESTというデータセットを構築しました。QUESTは、ウィキペディアの文書に対応するエンティティの集合にマッピングされる、暗黙的な集合演算を含む3357件の自然言語クエリから成ります。このデータセットは、クエリ内の複数の制約を文書内の対応する証拠と照合し、さまざまな集合演算を正しく実行する能力をモデルに要求します。 データセットは、ウィキペディアのカテゴリ名を利用して半自動的に構築されました。クエリは個々のカテゴリから自動的に作成された後、クラウドワーカーによって言い換えられ、自然さと流暢さが検証されました。また、クラウドワーカーは文書に基づいてエンティティの関連性を評価し、クエリの制約が文書テキストのどの部分に起因するかを特定しました。いくつかの現代的な検索システムを分析した結果、このようなクエリに対してしばしば苦戦することが明らかになりました。特に否定や接続を含むクエリは難易度が高く、これらの演算が組み合わさるとさらに困難が増します。
English
Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.
PDF10December 15, 2024