CRAWLDoc : Un ensemble de données pour le classement robuste de documents bibliographiques

papers.abstract

Les bases de données de publications reposent sur l'extraction précise de métadonnées à partir de diverses sources web. Cependant, les variations dans les mises en page web et les formats de données posent des défis pour les fournisseurs de métadonnées. Cet article présente CRAWLDoc, une nouvelle méthode pour le classement contextuel de documents web liés. En partant de l'URL d'une publication, telle qu'un identifiant d'objet numérique, CRAWLDoc récupère la page d'accueil ainsi que toutes les ressources web liées, y compris les PDF, les profils ORCID et les documents complémentaires. Il intègre ces ressources, ainsi que les textes d'ancrage et les URL, dans une représentation unifiée. Pour évaluer CRAWLDoc, nous avons créé un nouvel ensemble de données annoté manuellement, comprenant 600 publications provenant de six éditeurs majeurs en informatique. Notre méthode CRAWLDoc démontre un classement robuste et indépendant de la mise en page des documents pertinents, quels que soient l'éditeur et le format de données. Elle jette les bases d'une extraction améliorée des métadonnées à partir de documents web présentant diverses mises en page et formats. Notre code source et notre ensemble de données sont accessibles à l'adresse suivante : https://github.com/FKarl/CRAWLDoc.

English

Publication databases rely on accurate metadata extraction from diverse web sources, yet variations in web layouts and data formats present challenges for metadata providers. This paper introduces CRAWLDoc, a new method for contextual ranking of linked web documents. Starting with a publication's URL, such as a digital object identifier, CRAWLDoc retrieves the landing page and all linked web resources, including PDFs, ORCID profiles, and supplementary materials. It embeds these resources, along with anchor texts and the URLs, into a unified representation. For evaluating CRAWLDoc, we have created a new, manually labeled dataset of 600 publications from six top publishers in computer science. Our method CRAWLDoc demonstrates a robust and layout-independent ranking of relevant documents across publishers and data formats. It lays the foundation for improved metadata extraction from web documents with various layouts and formats. Our source code and dataset can be accessed at https://github.com/FKarl/CRAWLDoc.

CRAWLDoc : Un ensemble de données pour le classement robuste de documents bibliographiques

CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents

papers.abstract

Support