PubMed-OCR: Anotaciones OCR de Acceso Abierto de PMC
PubMed-OCR: PMC Open Access OCR Annotations
January 16, 2026
Autores: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI
Resumen
PubMed-OCR es un corpus centrado en OCR de artículos científicos derivado de los archivos PDF de acceso abierto de PubMed Central. Cada imagen de página se anota con Google Cloud Vision y se publica en un esquema JSON compacto con cuadros delimitadores a nivel de palabra, línea y párrafo. El corpus abarca 209,5 mil artículos (1,5 millones de páginas; ~1.300 millones de palabras) y admite el modelado consciente del diseño, preguntas y respuestas basadas en coordenadas y la evaluación de flujos de trabajo dependientes de OCR. Analizamos las características del corpus (por ejemplo, la cobertura de revistas y las características de diseño detectadas) y discutimos las limitaciones, incluida la dependencia de un único motor de OCR y la reconstrucción heurística de líneas. Publicamos los datos y el esquema para facilitar la investigación posterior e invitamos a extensiones.
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.