CRAWLDoc : Un ensemble de données pour le classement robuste de documents bibliographiques
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
June 4, 2025
Auteurs: Fabian Karl, Ansgar Scherp
cs.AI
Résumé
Les bases de données de publications reposent sur l'extraction précise de métadonnées à partir de diverses sources web. Cependant, les variations dans les mises en page web et les formats de données posent des défis pour les fournisseurs de métadonnées. Cet article présente CRAWLDoc, une nouvelle méthode pour le classement contextuel de documents web liés. En partant de l'URL d'une publication, telle qu'un identifiant d'objet numérique, CRAWLDoc récupère la page d'accueil ainsi que toutes les ressources web liées, y compris les PDF, les profils ORCID et les documents complémentaires. Il intègre ces ressources, ainsi que les textes d'ancrage et les URL, dans une représentation unifiée. Pour évaluer CRAWLDoc, nous avons créé un nouvel ensemble de données annoté manuellement, comprenant 600 publications provenant de six éditeurs majeurs en informatique. Notre méthode CRAWLDoc démontre un classement robuste et indépendant de la mise en page des documents pertinents, quels que soient l'éditeur et le format de données. Elle jette les bases d'une extraction améliorée des métadonnées à partir de documents web présentant diverses mises en page et formats. Notre code source et notre ensemble de données sont accessibles à l'adresse suivante : https://github.com/FKarl/CRAWLDoc.
English
Publication databases rely on accurate metadata extraction from diverse web
sources, yet variations in web layouts and data formats present challenges for
metadata providers. This paper introduces CRAWLDoc, a new method for contextual
ranking of linked web documents. Starting with a publication's URL, such as a
digital object identifier, CRAWLDoc retrieves the landing page and all linked
web resources, including PDFs, ORCID profiles, and supplementary materials. It
embeds these resources, along with anchor texts and the URLs, into a unified
representation. For evaluating CRAWLDoc, we have created a new, manually
labeled dataset of 600 publications from six top publishers in computer
science. Our method CRAWLDoc demonstrates a robust and layout-independent
ranking of relevant documents across publishers and data formats. It lays the
foundation for improved metadata extraction from web documents with various
layouts and formats. Our source code and dataset can be accessed at
https://github.com/FKarl/CRAWLDoc.