ChatPaper.aiChatPaper

QUEST: 암시적 집합 연산을 포함한 엔티티 탐색 쿼리 검색 데이터셋

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

May 19, 2023
저자: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
cs.AI

초록

선택적 정보 요구를 공식화하면 교집합, 합집합, 차집합과 같은 집합 연산을 암시적으로 지정하는 쿼리가 생성됩니다. 예를 들어, "도요새가 아닌 물떼새"나 "영국에서 촬영된 공상과학 영화"와 같은 검색이 있을 수 있습니다. 이러한 정보 요구를 충족시키기 위한 검색 시스템의 능력을 연구하기 위해, 우리는 위키피디아 문서에 해당하는 엔티티 집합에 매핑되는 암시적 집합 연산이 포함된 3,357개의 자연어 쿼리로 구성된 QUEST 데이터셋을 구축했습니다. 이 데이터셋은 모델이 쿼리에 언급된 여러 제약 조건을 문서 내의 해당 증거와 매칭하고 다양한 집합 연산을 올바르게 수행할 수 있는지를 평가합니다. 데이터셋은 위키피디아 카테고리 이름을 사용하여 반자동으로 구축되었습니다. 쿼리는 개별 카테고리에서 자동으로 구성된 후, 크라우드워커에 의해 자연스러움과 유창성을 위해 패러프레이징되고 추가 검증됩니다. 크라우드워커는 또한 문서를 기반으로 엔티티의 관련성을 평가하고, 쿼리 제약 조건이 문서 텍스트의 특정 부분에 어떻게 기인하는지 강조합니다. 우리는 여러 현대 검색 시스템을 분석한 결과, 이러한 쿼리에서 종종 어려움을 겪는 것을 발견했습니다. 특히 부정과 접속이 포함된 쿼리는 특히 어려우며, 이러한 연산의 조합은 시스템에 더 큰 도전을 제기합니다.
English
Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.
PDF10December 15, 2024