QUEST: Ein Abrufdatensatz von entitätssuchenden Anfragen mit impliziten Mengenoperationen
QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations
May 19, 2023
Autoren: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
cs.AI
Zusammenfassung
Die Formulierung selektiver Informationsbedürfnisse führt zu Anfragen, die implizit Mengenoperationen wie Schnittmenge, Vereinigung und Differenz spezifizieren. Beispielsweise könnte man nach „Watvögeln, die keine Schnepfen sind“ oder „Science-Fiction-Filmen, die in England gedreht wurden“ suchen. Um die Fähigkeit von Retrieval-Systemen zur Erfüllung solcher Informationsbedürfnisse zu untersuchen, erstellen wir QUEST, einen Datensatz von 3357 natürlichsprachigen Anfragen mit impliziten Mengenoperationen, die auf eine Menge von Entitäten abgebildet werden, die Wikipedia-Dokumenten entsprechen. Der Datensatz fordert Modelle heraus, mehrere in den Anfragen genannte Einschränkungen mit entsprechenden Belegen in den Dokumenten abzugleichen und verschiedene Mengenoperationen korrekt durchzuführen. Der Datensatz wird halbautomatisch unter Verwendung von Wikipedia-Kategorienamen erstellt. Anfragen werden automatisch aus einzelnen Kategorien zusammengesetzt, dann umformuliert und von Crowdworkern hinsichtlich Natürlichkeit und Flüssigkeit weiter validiert. Crowdworker bewerten auch die Relevanz von Entitäten basierend auf ihren Dokumenten und heben die Zuordnung von Anfrageeinschränkungen zu Textabschnitten in den Dokumenten hervor. Wir analysieren mehrere moderne Retrieval-Systeme und stellen fest, dass sie bei solchen Anfragen oft Schwierigkeiten haben. Anfragen, die Negation und Konjunktion beinhalten, sind besonders herausfordernd, und Systeme werden zusätzlich durch Kombinationen dieser Operationen gefordert.
English
Formulating selective information needs results in queries that implicitly
specify set operations, such as intersection, union, and difference. For
instance, one might search for "shorebirds that are not sandpipers" or
"science-fiction films shot in England". To study the ability of retrieval
systems to meet such information needs, we construct QUEST, a dataset of 3357
natural language queries with implicit set operations, that map to a set of
entities corresponding to Wikipedia documents. The dataset challenges models to
match multiple constraints mentioned in queries with corresponding evidence in
documents and correctly perform various set operations. The dataset is
constructed semi-automatically using Wikipedia category names. Queries are
automatically composed from individual categories, then paraphrased and further
validated for naturalness and fluency by crowdworkers. Crowdworkers also assess
the relevance of entities based on their documents and highlight attribution of
query constraints to spans of document text. We analyze several modern
retrieval systems, finding that they often struggle on such queries. Queries
involving negation and conjunction are particularly challenging and systems are
further challenged with combinations of these operations.