PubMed-OCR: Annotazioni OCR per gli Open Access di PMC
PubMed-OCR: PMC Open Access OCR Annotations
January 16, 2026
Autori: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI
Abstract
PubMed-OCR è un corpus di articoli scientifici incentrato sull'OCR, derivato dai PDF in Open Access di PubMed Central. Ogni immagine di pagina è annotata con Google Cloud Vision e rilasciata in uno schema JSON compatto con bounding box a livello di parola, riga e paragrafo. Il corpus comprende 209.500 articoli (1,5 milioni di pagine; circa 1,3 miliardi di parole) e supporta la modellazione consapevole del layout, il question answering ancorato alle coordinate e la valutazione di pipeline dipendenti dall'OCR. Analizziamo le caratteristiche del corpus (ad es. copertura delle riviste e caratteristiche di layout rilevate) e discutiamo i limiti, inclusa la dipendenza da un singolo motore OCR e la ricostruzione euristica delle righe. Rilasciamo i dati e lo schema per facilitare la ricerca downstream e invitiamo a estensioni.
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.