CRAWLDoc: Um Conjunto de Dados para Classificação Robusta de Documentos Bibliográficos
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
June 4, 2025
Autores: Fabian Karl, Ansgar Scherp
cs.AI
Resumo
Bases de dados de publicações dependem da extração precisa de metadados de diversas fontes da web, porém variações nos layouts e formatos de dados apresentam desafios para os provedores de metadados. Este artigo introduz o CRAWLDoc, um novo método para classificação contextual de documentos web vinculados. A partir do URL de uma publicação, como um identificador de objeto digital, o CRAWLDoc recupera a página inicial e todos os recursos web vinculados, incluindo PDFs, perfis ORCID e materiais suplementares. Ele incorpora esses recursos, juntamente com textos âncora e URLs, em uma representação unificada. Para avaliar o CRAWLDoc, criamos um novo conjunto de dados manualmente rotulado de 600 publicações de seis editoras líderes em ciência da computação. Nosso método CRAWLDoc demonstra uma classificação robusta e independente de layout de documentos relevantes entre editoras e formatos de dados. Ele estabelece a base para uma extração aprimorada de metadados de documentos web com diversos layouts e formatos. Nosso código-fonte e conjunto de dados podem ser acessados em https://github.com/FKarl/CRAWLDoc.
English
Publication databases rely on accurate metadata extraction from diverse web
sources, yet variations in web layouts and data formats present challenges for
metadata providers. This paper introduces CRAWLDoc, a new method for contextual
ranking of linked web documents. Starting with a publication's URL, such as a
digital object identifier, CRAWLDoc retrieves the landing page and all linked
web resources, including PDFs, ORCID profiles, and supplementary materials. It
embeds these resources, along with anchor texts and the URLs, into a unified
representation. For evaluating CRAWLDoc, we have created a new, manually
labeled dataset of 600 publications from six top publishers in computer
science. Our method CRAWLDoc demonstrates a robust and layout-independent
ranking of relevant documents across publishers and data formats. It lays the
foundation for improved metadata extraction from web documents with various
layouts and formats. Our source code and dataset can be accessed at
https://github.com/FKarl/CRAWLDoc.