ChatPaper.aiChatPaper

CRAWLDoc: Набор данных для устойчивого ранжирования библиографических документов

CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents

June 4, 2025
Авторы: Fabian Karl, Ansgar Scherp
cs.AI

Аннотация

Базы данных публикаций зависят от точного извлечения метаданных из различных веб-источников, однако различия в макетах веб-страниц и форматах данных создают сложности для поставщиков метаданных. В данной статье представлен CRAWLDoc — новый метод контекстного ранжирования связанных веб-документов. Начиная с URL публикации, такого как цифровой идентификатор объекта, CRAWLDoc извлекает целевую страницу и все связанные веб-ресурсы, включая PDF-файлы, профили ORCID и дополнительные материалы. Он объединяет эти ресурсы вместе с текстами ссылок и URL в единое представление. Для оценки CRAWLDoc мы создали новый, вручную размеченный набор данных, содержащий 600 публикаций от шести ведущих издателей в области компьютерных наук. Наш метод CRAWLDoc демонстрирует устойчивое и независимое от макета ранжирование релевантных документов для различных издателей и форматов данных. Он закладывает основу для улучшенного извлечения метаданных из веб-документов с различными макетами и форматами. Наш исходный код и набор данных доступны по адресу https://github.com/FKarl/CRAWLDoc.
English
Publication databases rely on accurate metadata extraction from diverse web sources, yet variations in web layouts and data formats present challenges for metadata providers. This paper introduces CRAWLDoc, a new method for contextual ranking of linked web documents. Starting with a publication's URL, such as a digital object identifier, CRAWLDoc retrieves the landing page and all linked web resources, including PDFs, ORCID profiles, and supplementary materials. It embeds these resources, along with anchor texts and the URLs, into a unified representation. For evaluating CRAWLDoc, we have created a new, manually labeled dataset of 600 publications from six top publishers in computer science. Our method CRAWLDoc demonstrates a robust and layout-independent ranking of relevant documents across publishers and data formats. It lays the foundation for improved metadata extraction from web documents with various layouts and formats. Our source code and dataset can be accessed at https://github.com/FKarl/CRAWLDoc.
PDF22June 5, 2025