ChatPaper.aiChatPaper

PubMed-OCR: PMCオープンアクセスOCRアノテーション

PubMed-OCR: PMC Open Access OCR Annotations

January 16, 2026
著者: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI

要旨

PubMed-OCRは、PubMed CentralのオープンアクセスPDFから抽出された、OCRに特化した科学論文コーパスである。各ページ画像はGoogle Cloud Visionで注釈付けされ、単語・行・段落レベルのバウンディングボックスを含むコンパクトなJSONスキーマで公開されている。本コーパスは20万9500報の論文(150万ページ、約13億語)を網羅し、レイアウト認識モデリング、座標に基づく質疑応答、OCR依存パイプラインの評価を支援する。コーパスの特性(例:ジャーナル coverage や検出されたレイアウト特徴)を分析し、単一OCRエンジンへの依存やヒューリスティックな行再構成といった限界について議論する。下流研究の促進のためデータとスキーマを公開し、拡張を呼びかける。
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.
PDF42January 21, 2026