QUEST: Набор данных для поиска запросов, ориентированных на сущности, с неявными операциями над множествами

Аннотация

Формулирование избирательных информационных запросов приводит к созданию запросов, которые неявно задают операции над множествами, такие как пересечение, объединение и разность. Например, можно искать "куликов, которые не являются песочниками" или "научно-фантастические фильмы, снятые в Англии". Чтобы изучить способность поисковых систем удовлетворять такие информационные потребности, мы создали QUEST — набор данных из 3357 естественноязыковых запросов с неявными операциями над множествами, которые сопоставляются с набором сущностей, соответствующих документам из Википедии. Этот набор данных проверяет способность моделей сопоставлять несколько ограничений, упомянутых в запросах, с соответствующими доказательствами в документах и корректно выполнять различные операции над множествами. Набор данных создан полуавтоматически с использованием названий категорий Википедии. Запросы автоматически составляются из отдельных категорий, затем перефразируются и дополнительно проверяются на естественность и грамотность с помощью краудворкеров. Краудворкеры также оценивают релевантность сущностей на основе их документов и выделяют атрибуцию ограничений запроса в тексте документа. Мы анализируем несколько современных поисковых систем и обнаруживаем, что они часто испытывают трудности с такими запросами. Запросы, включающие отрицание и конъюнкцию, особенно сложны, а системы сталкиваются с дополнительными трудностями при комбинациях этих операций.

English

Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.

QUEST: Набор данных для поиска запросов, ориентированных на сущности, с неявными операциями над множествами

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

Аннотация

Support