ChatPaper.aiChatPaper

GutenOCR: Eine fundierte Vision-Language-Frontend für Dokumente

GutenOCR: A Grounded Vision-Language Front-End for Documents

January 20, 2026
papers.authors: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew
cs.AI

papers.abstract

GutenOCR ist eine Familie von geerdeten OCR-Frontends, die durch Feinabstimmung von Qwen2.5-VL-3B und Qwen2.5-VL-7B entwickelt wurden. Die daraus resultierenden Einzel-Checkpoint-Vision-Sprach-Modelle bieten Lese-, Erkennungs- und Verankerungsfunktionen über eine einheitliche, promptbasierte Schnittstelle. Die Modelle, die auf Geschäftsdokumenten, wissenschaftlichen Artikeln und synthetischen Verankerungsdaten trainiert wurden, unterstützen das Lesen ganzer Seiten und lokaler Bereiche mit Begrenzungsrahmen auf Zeilen- und Absatzebene sowie bedingte Abfragen nach dem Muster „Wo ist x?“. Wir führen ein evaluiertes Protokoll für geerdete OCR ein und zeigen, dass GutenOCR-7B den kombinierten geerdeten OCR-Score seines Qwen2.5-VL-7B-Backbones auf 10.500 zurückgehaltenen Geschäfts- und Wissenschaftsseiten mehr als verdoppelt (von 0,40 auf 0,82). Auf Fox und OmniDocBench v1.5 verbessert unser Ansatz die OCR auf Bereichs- und Zeilenebene sowie die Texterkennungserkennungsrate erheblich, zeigt jedoch Kompromisse bei der Linearisierung auf Seitenebene, farbgesteuerter OCR und formelreichen Layouts auf.
English
GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.
PDF142January 23, 2026