ChatPaper.aiChatPaper

GutenOCR: 문서를 위한 기반 비전-언어 프론트엔드

GutenOCR: A Grounded Vision-Language Front-End for Documents

January 20, 2026
저자: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew
cs.AI

초록

GutenOCR은 Qwen2.5-VL-3B와 Qwen2.5-VL-7B를 미세 조정하여 얻은 일련의 접지된 OCR 프론트엔드 모델 패밀리입니다. 결과적으로 생성된 단일 체크포인트 비전-언어 모델은 통합된 프롬프트 기반 인터페이스를 통해 읽기, 감지 및 접지 기능을 제공합니다. 비즈니스 문서, 과학 논문 및 합성 접지 데이터로 학습된 이 모델들은 라인 및 단락 수준의 경계 상자와 조건부 "x는 어디에 있나요?" 쿼리를 통해 전체 페이지 및 지역화된 읽기를 지원합니다. 본 논문은 접지된 OCR 평가 프로토콜을 소개하고, GutenOCR-7B가 10.5K개의 보류된 비즈니스 및 과학 페이지에서 기본 Qwen2.5-VL-7B 백본의 복합 접지 OCR 점수를 두 배 이상 향상시킴을 보여줍니다(0.40에서 0.82로). Fox 및 OmniDocBench v1.5 벤치마크에서 우리의 접근 방식은 영역 및 라인 수준 OCR과 텍스트 감지 재현율을 크게 개선하지만, 페이지 수준 선형화, 색상 기반 OCR 및 수식이 많은 레이아웃에서 트레이드오프가 있음을 보여줍니다.
English
GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.
PDF142January 23, 2026