PubMed-OCR: PMC 오픈 액세스 OCR 주석
PubMed-OCR: PMC Open Access OCR Annotations
January 16, 2026
저자: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI
초록
PubMed-OCR는 PubMed Central 오픈 액세스 PDF에서 추출한 과학 논문으로 구성된 OCR 중심 코퍼스입니다. 각 페이지 이미지는 Google Cloud Vision으로 주석 처리되어 단어, 줄, 문단 수준의 바운딩 박스와 함께 간결한 JSON 스키마 형태로 공개됩니다. 이 코퍼스는 209.5K개의 논문(150만 페이지; 약 13억 단어)을 포괄하며 레이아웃 인식 모델링, 좌표 기반 질의응답, OCR 의존적 파이프라인 평가를 지원합니다. 저희는 코퍼스 특성(예: 학술지 커버리지 및 감지된 레이아웃 특징)을 분석하고, 단일 OCR 엔진 의존성 및 휴리스틱 기반 줄 재구성 등의 한계점을 논의합니다. 데이터와 스키마를 공개하여 하류 연구를 촉진하고 확장을 권장합니다.
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.