PubMed-OCR: Результаты OCR и аннотации для статей с открытым доступом из репозитория PMC
PubMed-OCR: PMC Open Access OCR Annotations
January 16, 2026
Авторы: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott
cs.AI
Аннотация
PubMed-OCR — это корпус научных статей, ориентированный на задачи оптического распознавания символов (OCR), созданный на основе PDF-документов из репозитория PubMed Central Open Access. Каждое изображение страницы аннотировано с помощью Google Cloud Vision и представлено в компактной JSON-схеме с ограничивающими рамками на уровне слов, строк и абзацев. Корпус охватывает 209,5 тыс. статей (1,5 млн страниц; ~1,3 млрд слов) и поддерживает моделирование с учётом структуры документа, вопросы и ответы с привязкой к координатам, а также оценку OCR-зависимых конвейеров. Мы анализируем характеристики корпуса (например, охват журналов и обнаруженные особенности разметки) и обсуждаем ограничения, включая зависимость от единого движка OCR и эвристического восстановления строк. Мы публикуем данные и схему для содействия последующим исследованиям и приветствуем их расширение.
English
PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.