QUEST : Un ensemble de données de requêtes de recherche d'entités avec des opérations ensemblistes implicites
QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations
May 19, 2023
Auteurs: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
cs.AI
Résumé
La formulation de besoins d'information sélectifs donne lieu à des requêtes qui spécifient implicitement des opérations ensemblistes, telles que l'intersection, l'union et la différence. Par exemple, on pourrait rechercher "les oiseaux de rivage qui ne sont pas des bécasseaux" ou "les films de science-fiction tournés en Angleterre". Pour étudier la capacité des systèmes de recherche à répondre à de tels besoins d'information, nous avons construit QUEST, un ensemble de données de 3357 requêtes en langage naturel contenant des opérations ensemblistes implicites, qui correspondent à un ensemble d'entités liées à des documents Wikipédia. Ce jeu de données met les modèles au défi d'associer plusieurs contraintes mentionnées dans les requêtes avec des preuves correspondantes dans les documents et d'effectuer correctement diverses opérations ensemblistes. Le jeu de données est construit de manière semi-automatique en utilisant les noms de catégories Wikipédia. Les requêtes sont automatiquement composées à partir de catégories individuelles, puis reformulées et validées pour leur naturel et leur fluidité par des travailleurs crowdsourcés. Ces travailleurs évaluent également la pertinence des entités en fonction de leurs documents et mettent en évidence l'attribution des contraintes des requêtes à des segments de texte dans les documents. Nous analysons plusieurs systèmes de recherche modernes, constatant qu'ils ont souvent des difficultés avec de telles requêtes. Les requêtes impliquant la négation et la conjonction sont particulièrement difficiles, et les systèmes sont encore plus mis à l'épreuve avec des combinaisons de ces opérations.
English
Formulating selective information needs results in queries that implicitly
specify set operations, such as intersection, union, and difference. For
instance, one might search for "shorebirds that are not sandpipers" or
"science-fiction films shot in England". To study the ability of retrieval
systems to meet such information needs, we construct QUEST, a dataset of 3357
natural language queries with implicit set operations, that map to a set of
entities corresponding to Wikipedia documents. The dataset challenges models to
match multiple constraints mentioned in queries with corresponding evidence in
documents and correctly perform various set operations. The dataset is
constructed semi-automatically using Wikipedia category names. Queries are
automatically composed from individual categories, then paraphrased and further
validated for naturalness and fluency by crowdworkers. Crowdworkers also assess
the relevance of entities based on their documents and highlight attribution of
query constraints to spans of document text. We analyze several modern
retrieval systems, finding that they often struggle on such queries. Queries
involving negation and conjunction are particularly challenging and systems are
further challenged with combinations of these operations.