ChatPaper.aiChatPaper

QUEST: Un Conjunto de Datos de Recuperación de Consultas de Búsqueda de Entidades con Operaciones de Conjunto Implícitas

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

May 19, 2023
Autores: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
cs.AI

Resumen

La formulación de necesidades de información selectiva da lugar a consultas que especifican implícitamente operaciones de conjuntos, como intersección, unión y diferencia. Por ejemplo, se podría buscar "aves playeras que no sean correlimos" o "películas de ciencia ficción rodadas en Inglaterra". Para estudiar la capacidad de los sistemas de recuperación para satisfacer este tipo de necesidades de información, construimos QUEST, un conjunto de datos de 3357 consultas en lenguaje natural con operaciones de conjuntos implícitas, que se mapean a un conjunto de entidades correspondientes a documentos de Wikipedia. El conjunto de datos desafía a los modelos a hacer coincidir múltiples restricciones mencionadas en las consultas con la evidencia correspondiente en los documentos y a realizar correctamente diversas operaciones de conjuntos. El conjunto de datos se construye de manera semiautomática utilizando nombres de categorías de Wikipedia. Las consultas se componen automáticamente a partir de categorías individuales, luego se parafrasean y se validan adicionalmente en cuanto a naturalidad y fluidez por parte de trabajadores de crowdsourcing. Estos trabajadores también evalúan la relevancia de las entidades basándose en sus documentos y destacan la atribución de las restricciones de las consultas a fragmentos del texto del documento. Analizamos varios sistemas de recuperación modernos y encontramos que a menudo tienen dificultades con este tipo de consultas. Las consultas que involucran negación y conjunción son particularmente desafiantes, y los sistemas se enfrentan a un mayor reto con combinaciones de estas operaciones.
English
Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.
PDF10December 15, 2024