CRAWLDoc: Een dataset voor robuuste rangschikking van bibliografische documenten
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
June 4, 2025
Auteurs: Fabian Karl, Ansgar Scherp
cs.AI
Samenvatting
Publicatiedatabases zijn afhankelijk van nauwkeurige metadata-extractie uit diverse webbronnen, maar variaties in webindelingen en dataformaten vormen uitdagingen voor metadata-aanbieders. Dit artikel introduceert CRAWLDoc, een nieuwe methode voor contextueel rangschikken van gelinkte webdocumenten. Uitgaande van de URL van een publicatie, zoals een digital object identifier, haalt CRAWLDoc de landingspagina en alle gelinkte webbronnen op, waaronder PDF's, ORCID-profielen en aanvullende materialen. Het integreert deze bronnen, samen met ankerteksten en de URL's, in een uniforme representatie. Voor de evaluatie van CRAWLDoc hebben we een nieuwe, handmatig gelabelde dataset gemaakt van 600 publicaties van zes toonaangevende uitgevers in de informatica. Onze methode CRAWLDoc toont een robuuste en lay-out-onafhankelijke rangschikking van relevante documenten over uitgevers en dataformaten heen. Het legt de basis voor verbeterde metadata-extractie uit webdocumenten met verschillende lay-outs en formaten. Onze broncode en dataset zijn toegankelijk op https://github.com/FKarl/CRAWLDoc.
English
Publication databases rely on accurate metadata extraction from diverse web
sources, yet variations in web layouts and data formats present challenges for
metadata providers. This paper introduces CRAWLDoc, a new method for contextual
ranking of linked web documents. Starting with a publication's URL, such as a
digital object identifier, CRAWLDoc retrieves the landing page and all linked
web resources, including PDFs, ORCID profiles, and supplementary materials. It
embeds these resources, along with anchor texts and the URLs, into a unified
representation. For evaluating CRAWLDoc, we have created a new, manually
labeled dataset of 600 publications from six top publishers in computer
science. Our method CRAWLDoc demonstrates a robust and layout-independent
ranking of relevant documents across publishers and data formats. It lays the
foundation for improved metadata extraction from web documents with various
layouts and formats. Our source code and dataset can be accessed at
https://github.com/FKarl/CRAWLDoc.