GutenOCR: Een Gebaseerde Visie-Taal Front-End voor Documenten
GutenOCR: A Grounded Vision-Language Front-End for Documents
January 20, 2026
Auteurs: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew
cs.AI
Samenvatting
GutenOCR is een familie van gegronde OCR-frontends die zijn verkregen door het finetunen van Qwen2.5-VL-3B en Qwen2.5-VL-7B. De resulterende vision-language modellen met een enkele checkpoint bieden lees-, detectie- en grondingsmogelijkheden via een uniforme, op prompts gebaseerde interface. Getraind op zakelijke documenten, wetenschappelijke artikelen en synthetische grondingsgegevens, ondersteunen de modellen volledige pagina- en gelokaliseerd lezen met bounding boxes op regel- en alineaniveau en conditionele "waar is x?"-query's. We introduceren een gegronde OCR-evaluatieprotocol en tonen aan dat GutenOCR-7B de samengestelde gegronde OCR-score van zijn Qwen2.5-VL-7B-backbone meer dan verdubbelt op 10.5K achtergehouden zakelijke en wetenschappelijke pagina's (0.40 naar 0.82). Op Fox en OmniDocBench v1.5 verbetert onze aanpak de OCR op regio- en regelniveau evenals de tekstdetectie-recall aanzienlijk, maar laat het afwegingen zien op het gebied van pagina-level linearisatie, kleurgeleide OCR en formulerijke lay-outs.
English
GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.