CRAWLDoc: Un Conjunto de Datos para la Clasificación Robusta de Documentos Bibliográficos
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
June 4, 2025
Autores: Fabian Karl, Ansgar Scherp
cs.AI
Resumen
Las bases de datos de publicaciones dependen de la extracción precisa de metadatos de diversas fuentes web; sin embargo, las variaciones en los diseños de las páginas y los formatos de datos presentan desafíos para los proveedores de metadatos. Este artículo presenta CRAWLDoc, un nuevo método para la clasificación contextual de documentos web enlazados. A partir de la URL de una publicación, como un identificador de objeto digital, CRAWLDoc recupera la página de destino y todos los recursos web vinculados, incluyendo archivos PDF, perfiles ORCID y materiales complementarios. Estos recursos, junto con los textos de anclaje y las URL, se integran en una representación unificada. Para evaluar CRAWLDoc, hemos creado un nuevo conjunto de datos etiquetado manualmente que incluye 600 publicaciones de seis editoriales líderes en informática. Nuestro método CRAWLDoc demuestra una clasificación robusta e independiente del diseño de documentos relevantes entre editoriales y formatos de datos. Establece las bases para una mejora en la extracción de metadatos de documentos web con diversos diseños y formatos. Nuestro código fuente y conjunto de datos están disponibles en https://github.com/FKarl/CRAWLDoc.
English
Publication databases rely on accurate metadata extraction from diverse web
sources, yet variations in web layouts and data formats present challenges for
metadata providers. This paper introduces CRAWLDoc, a new method for contextual
ranking of linked web documents. Starting with a publication's URL, such as a
digital object identifier, CRAWLDoc retrieves the landing page and all linked
web resources, including PDFs, ORCID profiles, and supplementary materials. It
embeds these resources, along with anchor texts and the URLs, into a unified
representation. For evaluating CRAWLDoc, we have created a new, manually
labeled dataset of 600 publications from six top publishers in computer
science. Our method CRAWLDoc demonstrates a robust and layout-independent
ranking of relevant documents across publishers and data formats. It lays the
foundation for improved metadata extraction from web documents with various
layouts and formats. Our source code and dataset can be accessed at
https://github.com/FKarl/CRAWLDoc.