QUEST: Een Retrieval Dataset van Entiteitzoekende Query's met Impliciete Setbewerkingen
QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations
May 19, 2023
Auteurs: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
cs.AI
Samenvatting
Het formuleren van selectieve informatiebehoeften resulteert in zoekopdrachten die impliciet verzamelingsoperaties specificeren, zoals doorsnede, vereniging en verschil. Bijvoorbeeld, men zou kunnen zoeken naar "steltlopers die geen strandlopers zijn" of "sciencefictionfilms opgenomen in Engeland". Om het vermogen van retrievalsystemen om aan dergelijke informatiebehoeften te voldoen te bestuderen, construeren we QUEST, een dataset van 3357 natuurlijke taal zoekopdrachten met impliciete verzamelingsoperaties, die worden gekoppeld aan een set entiteiten die corresponderen met Wikipediadocumenten. De dataset daagt modellen uit om meerdere beperkingen die in zoekopdrachten worden genoemd te matchen met overeenkomstig bewijs in documenten en correct verschillende verzamelingsoperaties uit te voeren. De dataset is semi-automatisch geconstrueerd met behulp van Wikipedia-categorienamen. Zoekopdrachten worden automatisch samengesteld uit individuele categorieën, vervolgens geparafraseerd en verder gevalideerd op natuurlijkheid en vloeiendheid door crowdworkers. Crowdworkers beoordelen ook de relevantie van entiteiten op basis van hun documenten en markeren de toeschrijving van zoekopdrachtbeperkingen aan tekstgedeelten in documenten. We analyseren verschillende moderne retrievalsystemen en constateren dat ze vaak moeite hebben met dergelijke zoekopdrachten. Zoekopdrachten met ontkenning en conjunctie zijn bijzonder uitdagend en systemen worden verder op de proef gesteld met combinaties van deze operaties.
English
Formulating selective information needs results in queries that implicitly
specify set operations, such as intersection, union, and difference. For
instance, one might search for "shorebirds that are not sandpipers" or
"science-fiction films shot in England". To study the ability of retrieval
systems to meet such information needs, we construct QUEST, a dataset of 3357
natural language queries with implicit set operations, that map to a set of
entities corresponding to Wikipedia documents. The dataset challenges models to
match multiple constraints mentioned in queries with corresponding evidence in
documents and correctly perform various set operations. The dataset is
constructed semi-automatically using Wikipedia category names. Queries are
automatically composed from individual categories, then paraphrased and further
validated for naturalness and fluency by crowdworkers. Crowdworkers also assess
the relevance of entities based on their documents and highlight attribution of
query constraints to spans of document text. We analyze several modern
retrieval systems, finding that they often struggle on such queries. Queries
involving negation and conjunction are particularly challenging and systems are
further challenged with combinations of these operations.