PubMed-OCR: OCR-Anmerkungen zu Open-Access-Artikeln von PMC
PubMed-OCR: PMC Open Access OCR Annotations
January 16, 2026
papers.authors: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI
papers.abstract
PubMed-OCR ist ein OCR-zentrierter Korpus wissenschaftlicher Artikel, der aus Open-Access-PDFs von PubMed Central abgeleitet wurde. Jedes Seitenbild wurde mit Google Cloud Vision annotiert und in einem kompakten JSON-Schema mit Begrenzungsrahmen auf Wort-, Zeilen- und Absatzebene veröffentlicht. Der Korpus umfasst 209.500 Artikel (1,5 Millionen Seiten; ca. 1,3 Milliarden Wörter) und unterstützt layoutbewusste Modellierung, koordinatenbasierte Frage-Antwort-Systeme sowie die Evaluation von OCR-abhängigen Verarbeitungspipelines. Wir analysieren Korpusmerkmale (z.B. Zeitschriftenabdeckung und erkannte Layoutelemente) und erörtern Einschränkungen, darunter die Abhängigkeit von einer einzigen OCR-Engine und die heuristische Zeilenrekonstruktion. Wir veröffentlichen die Daten und das Schema, um nachgelagerte Forschung zu erleichtern, und laden zu Erweiterungen ein.
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.