PubMed-OCR: OCR-annotaties voor Open Access-artikelen van PMC
PubMed-OCR: PMC Open Access OCR Annotations
January 16, 2026
Auteurs: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI
Samenvatting
PubMed-OCR is een OCR-gecentreerd corpus van wetenschappelijke artikelen, afgeleid van PubMed Central Open Access PDF's. Elke pagina-afbeelding is geannoteerd met Google Cloud Vision en vrijgegeven in een compact JSON-schema met begrenzingskaders op woord-, regel- en alineaniveau. Het corpus beslaat 209.500 artikelen (1,5 miljoen pagina's; circa 1,3 miljard woorden) en ondersteunt lay-outbewuste modellering, coördinaat-gebaseerde vraag-antwoordtaken en evaluatie van OCR-afhankelijke pijplijnen. Wij analyseren corpuskenmerken (zoals tijdschriftdekking en gedetecteerde lay-outkenmerken) en bespreken beperkingen, waaronder de afhankelijkheid van een enkele OCR-engine en heuristische lijnreconstructie. Wij geven de data en het schema vrij om vervolgonderzoek te vergemakkelijken en nodigen uit tot uitbreidingen.
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.