QUEST: Набор данных для поиска запросов, ориентированных на сущности, с неявными операциями над множествами
QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations
May 19, 2023
Авторы: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
cs.AI
Аннотация
Формулирование избирательных информационных запросов приводит к созданию запросов, которые неявно задают операции над множествами, такие как пересечение, объединение и разность. Например, можно искать "куликов, которые не являются песочниками" или "научно-фантастические фильмы, снятые в Англии". Чтобы изучить способность поисковых систем удовлетворять такие информационные потребности, мы создали QUEST — набор данных из 3357 естественноязыковых запросов с неявными операциями над множествами, которые сопоставляются с набором сущностей, соответствующих документам из Википедии. Этот набор данных проверяет способность моделей сопоставлять несколько ограничений, упомянутых в запросах, с соответствующими доказательствами в документах и корректно выполнять различные операции над множествами. Набор данных создан полуавтоматически с использованием названий категорий Википедии. Запросы автоматически составляются из отдельных категорий, затем перефразируются и дополнительно проверяются на естественность и грамотность с помощью краудворкеров. Краудворкеры также оценивают релевантность сущностей на основе их документов и выделяют атрибуцию ограничений запроса в тексте документа. Мы анализируем несколько современных поисковых систем и обнаруживаем, что они часто испытывают трудности с такими запросами. Запросы, включающие отрицание и конъюнкцию, особенно сложны, а системы сталкиваются с дополнительными трудностями при комбинациях этих операций.
English
Formulating selective information needs results in queries that implicitly
specify set operations, such as intersection, union, and difference. For
instance, one might search for "shorebirds that are not sandpipers" or
"science-fiction films shot in England". To study the ability of retrieval
systems to meet such information needs, we construct QUEST, a dataset of 3357
natural language queries with implicit set operations, that map to a set of
entities corresponding to Wikipedia documents. The dataset challenges models to
match multiple constraints mentioned in queries with corresponding evidence in
documents and correctly perform various set operations. The dataset is
constructed semi-automatically using Wikipedia category names. Queries are
automatically composed from individual categories, then paraphrased and further
validated for naturalness and fluency by crowdworkers. Crowdworkers also assess
the relevance of entities based on their documents and highlight attribution of
query constraints to spans of document text. We analyze several modern
retrieval systems, finding that they often struggle on such queries. Queries
involving negation and conjunction are particularly challenging and systems are
further challenged with combinations of these operations.