PubMed-OCR: Anotações OCR de Acesso Aberto do PMC

Resumo

O PubMed-OCR é um corpus centrado em OCR de artigos científicos derivado de PDFs de Acesso Aberto do PubMed Central. Cada imagem de página é anotada com o Google Cloud Vision e disponibilizada em um esquema JSON compacto com caixas delimitadoras em nível de palavra, linha e parágrafo. O corpus abrange 209,5 mil artigos (1,5 milhão de páginas; ~1,3 bilhão de palavras) e suporta modelagem consciente do layout, QA baseado em coordenadas e avaliação de fluxos de trabalho dependentes de OCR. Analisamos as características do corpus (por exemplo, cobertura de revistas e recursos de layout detectados) e discutimos limitações, incluindo a dependência de um único mecanismo de OCR e a reconstrução heurística de linhas. Disponibilizamos os dados e o esquema para facilitar pesquisas subsequentes e convidamos a extensões.

English

PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.