CRAWLDoc: Un Dataset per il Ranking Robusto di Documenti Bibliografici
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
June 4, 2025
Autori: Fabian Karl, Ansgar Scherp
cs.AI
Abstract
Le banche dati di pubblicazioni si basano sull'estrazione accurata di metadati da fonti web diverse, tuttavia le variazioni nei layout e nei formati dei dati presentano sfide per i fornitori di metadati. Questo articolo introduce CRAWLDoc, un nuovo metodo per il ranking contestuale di documenti web collegati. Partendo dall'URL di una pubblicazione, come un identificatore di oggetto digitale, CRAWLDoc recupera la pagina di destinazione e tutte le risorse web collegate, inclusi PDF, profili ORCID e materiali supplementari. Esso incorpora queste risorse, insieme ai testi di ancoraggio e agli URL, in una rappresentazione unificata. Per valutare CRAWLDoc, abbiamo creato un nuovo dataset etichettato manualmente di 600 pubblicazioni provenienti da sei editori leader nell'informatica. Il nostro metodo CRAWLDoc dimostra un ranking robusto e indipendente dal layout di documenti rilevanti tra editori e formati di dati. Esso getta le basi per un miglioramento dell'estrazione di metadati da documenti web con vari layout e formati. Il nostro codice sorgente e il dataset sono accessibili all'indirizzo https://github.com/FKarl/CRAWLDoc.
English
Publication databases rely on accurate metadata extraction from diverse web
sources, yet variations in web layouts and data formats present challenges for
metadata providers. This paper introduces CRAWLDoc, a new method for contextual
ranking of linked web documents. Starting with a publication's URL, such as a
digital object identifier, CRAWLDoc retrieves the landing page and all linked
web resources, including PDFs, ORCID profiles, and supplementary materials. It
embeds these resources, along with anchor texts and the URLs, into a unified
representation. For evaluating CRAWLDoc, we have created a new, manually
labeled dataset of 600 publications from six top publishers in computer
science. Our method CRAWLDoc demonstrates a robust and layout-independent
ranking of relevant documents across publishers and data formats. It lays the
foundation for improved metadata extraction from web documents with various
layouts and formats. Our source code and dataset can be accessed at
https://github.com/FKarl/CRAWLDoc.