CRAWLDoc: 서지 문서의 강건한 순위 결정을 위한 데이터셋
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
June 4, 2025
저자: Fabian Karl, Ansgar Scherp
cs.AI
초록
출판물 데이터베이스는 다양한 웹 소스로부터 정확한 메타데이터 추출에 의존하지만, 웹 레이아웃과 데이터 형식의 다양성은 메타데이터 제공자에게 도전 과제로 작용합니다. 본 논문은 링크된 웹 문서의 문맥 기반 순위를 매기는 새로운 방법인 CRAWLDoc을 소개합니다. 디지털 객체 식별자와 같은 출판물의 URL을 시작점으로, CRAWLDoc은 랜딩 페이지와 PDF, ORCID 프로필, 보조 자료를 포함한 모든 링크된 웹 리소스를 검색합니다. 이 리소스들을 앵커 텍스트와 URL과 함께 통합된 표현으로 임베딩합니다. CRAWLDoc을 평가하기 위해, 우리는 컴퓨터 과학 분야의 6개 주요 출판사에서 수집한 600개의 출판물로 구성된 새로운 수동 라벨링 데이터셋을 구축했습니다. 우리의 방법인 CRAWLDoc은 출판사와 데이터 형식에 걸쳐 관련 문서의 강력하고 레이아웃 독립적인 순위를 보여줍니다. 이는 다양한 레이아웃과 형식을 가진 웹 문서로부터 향상된 메타데이터 추출의 기반을 마련합니다. 우리의 소스 코드와 데이터셋은 https://github.com/FKarl/CRAWLDoc에서 확인할 수 있습니다.
English
Publication databases rely on accurate metadata extraction from diverse web
sources, yet variations in web layouts and data formats present challenges for
metadata providers. This paper introduces CRAWLDoc, a new method for contextual
ranking of linked web documents. Starting with a publication's URL, such as a
digital object identifier, CRAWLDoc retrieves the landing page and all linked
web resources, including PDFs, ORCID profiles, and supplementary materials. It
embeds these resources, along with anchor texts and the URLs, into a unified
representation. For evaluating CRAWLDoc, we have created a new, manually
labeled dataset of 600 publications from six top publishers in computer
science. Our method CRAWLDoc demonstrates a robust and layout-independent
ranking of relevant documents across publishers and data formats. It lays the
foundation for improved metadata extraction from web documents with various
layouts and formats. Our source code and dataset can be accessed at
https://github.com/FKarl/CRAWLDoc.