QUEST: Un Dataset di Recupero di Query alla Ricerca di Entità con Operazioni Implicite su Insiemi

Abstract

La formulazione di esigenze informative selettive si traduce in query che specificano implicitamente operazioni sugli insiemi, come intersezione, unione e differenza. Ad esempio, si potrebbe cercare "uccelli costieri che non sono piovanelli" o "film di fantascienza girati in Inghilterra". Per studiare la capacità dei sistemi di recupero di soddisfare tali esigenze informative, abbiamo costruito QUEST, un dataset di 3357 query in linguaggio naturale con operazioni sugli insiemi implicite, che si mappano su un insieme di entità corrispondenti a documenti di Wikipedia. Il dataset mette alla prova i modelli nel confrontare i vincoli multipli menzionati nelle query con le evidenze corrispondenti nei documenti e nell'eseguire correttamente varie operazioni sugli insiemi. Il dataset è stato costruito in modo semi-automatico utilizzando i nomi delle categorie di Wikipedia. Le query sono state composte automaticamente a partire da singole categorie, poi parafrasate e ulteriormente validate per naturalezza e fluidità da lavoratori crowdsourcing. I lavoratori crowdsourcing valutano anche la rilevanza delle entità in base ai loro documenti e evidenziano l'attribuzione dei vincoli delle query a porzioni di testo dei documenti. Analizziamo diversi moderni sistemi di recupero, riscontrando che spesso hanno difficoltà con tali query. Le query che coinvolgono negazione e congiunzione sono particolarmente impegnative e i sistemi sono ulteriormente messi alla prova con combinazioni di queste operazioni.

English

Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.

QUEST: Un Dataset di Recupero di Query alla Ricerca di Entità con Operazioni Implicite su Insiemi

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

Abstract

Support