PubMed-OCR : Annotations OCR des articles en libre accès de PMC
PubMed-OCR: PMC Open Access OCR Annotations
January 16, 2026
papers.authors: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI
papers.abstract
PubMed-OCR est un corpus d'articles scientifiques axé sur la reconnaissance optique de caractères (OCR), dérivé des fichiers PDF en libre accès de PubMed Central. Chaque image de page est annotée avec Google Cloud Vision et publiée selon un schéma JSON compact comprenant les coordonnées des boîtes englobantes au niveau des mots, des lignes et des paragraphes. Le corpus couvre 209,5 milliers d'articles (1,5 million de pages ; environ 1,3 milliard de mots) et prend en charge la modélisation tenant compte de la mise en page, les questions-réponses ancrées sur les coordonnées et l'évaluation des pipelines dépendants de l'OCR. Nous analysons les caractéristiques du corpus (telles que la couverture des revues et les éléments de mise en page détectés) et discutons des limites, incluant la dépendance à un moteur OCR unique et la reconstruction heuristique des lignes. Nous publions les données et le schéma pour faciliter la recherche en aval et encourageons les extensions.
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.