CRAWLDoc: Een dataset voor robuuste rangschikking van bibliografische documenten

Samenvatting

Publicatiedatabases zijn afhankelijk van nauwkeurige metadata-extractie uit diverse webbronnen, maar variaties in webindelingen en dataformaten vormen uitdagingen voor metadata-aanbieders. Dit artikel introduceert CRAWLDoc, een nieuwe methode voor contextueel rangschikken van gelinkte webdocumenten. Uitgaande van de URL van een publicatie, zoals een digital object identifier, haalt CRAWLDoc de landingspagina en alle gelinkte webbronnen op, waaronder PDF's, ORCID-profielen en aanvullende materialen. Het integreert deze bronnen, samen met ankerteksten en de URL's, in een uniforme representatie. Voor de evaluatie van CRAWLDoc hebben we een nieuwe, handmatig gelabelde dataset gemaakt van 600 publicaties van zes toonaangevende uitgevers in de informatica. Onze methode CRAWLDoc toont een robuuste en lay-out-onafhankelijke rangschikking van relevante documenten over uitgevers en dataformaten heen. Het legt de basis voor verbeterde metadata-extractie uit webdocumenten met verschillende lay-outs en formaten. Onze broncode en dataset zijn toegankelijk op https://github.com/FKarl/CRAWLDoc.

English

Publication databases rely on accurate metadata extraction from diverse web sources, yet variations in web layouts and data formats present challenges for metadata providers. This paper introduces CRAWLDoc, a new method for contextual ranking of linked web documents. Starting with a publication's URL, such as a digital object identifier, CRAWLDoc retrieves the landing page and all linked web resources, including PDFs, ORCID profiles, and supplementary materials. It embeds these resources, along with anchor texts and the URLs, into a unified representation. For evaluating CRAWLDoc, we have created a new, manually labeled dataset of 600 publications from six top publishers in computer science. Our method CRAWLDoc demonstrates a robust and layout-independent ranking of relevant documents across publishers and data formats. It lays the foundation for improved metadata extraction from web documents with various layouts and formats. Our source code and dataset can be accessed at https://github.com/FKarl/CRAWLDoc.

CRAWLDoc: Een dataset voor robuuste rangschikking van bibliografische documenten

CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents

Samenvatting

Support