QUEST: Um Conjunto de Dados de Recuperação de Consultas de Busca de Entidades com Operações Implícitas de Conjunto

Resumo

A formulação de necessidades seletivas de informação resulta em consultas que especificam implicitamente operações de conjuntos, como interseção, união e diferença. Por exemplo, pode-se pesquisar por "aves costeiras que não são maçaricos" ou "filmes de ficção científica filmados na Inglaterra". Para estudar a capacidade dos sistemas de recuperação de atender a tais necessidades de informação, construímos o QUEST, um conjunto de dados com 3357 consultas em linguagem natural que contêm operações implícitas de conjuntos, mapeadas para um conjunto de entidades correspondentes a documentos da Wikipédia. O conjunto de dados desafia os modelos a combinar múltiplas restrições mencionadas nas consultas com evidências correspondentes nos documentos e a realizar corretamente diversas operações de conjuntos. O conjunto de dados foi construído de forma semiautomática utilizando nomes de categorias da Wikipédia. As consultas são compostas automaticamente a partir de categorias individuais, depois parafraseadas e validadas quanto à naturalidade e fluência por trabalhadores colaborativos. Esses trabalhadores também avaliam a relevância das entidades com base em seus documentos e destacam a atribuição das restrições das consultas a trechos do texto dos documentos. Analisamos vários sistemas modernos de recuperação e constatamos que eles frequentemente enfrentam dificuldades com tais consultas. Consultas que envolvem negação e conjunção são particularmente desafiadoras, e os sistemas são ainda mais testados com combinações dessas operações.

English

Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.

QUEST: Um Conjunto de Dados de Recuperação de Consultas de Busca de Entidades com Operações Implícitas de Conjunto

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

Resumo

Support