GutenOCR:文書のためのグラウンディングされた視覚言語フロントエンド
GutenOCR: A Grounded Vision-Language Front-End for Documents
January 20, 2026
著者: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew
cs.AI
要旨
GutenOCRは、Qwen2.5-VL-3BおよびQwen2.5-VL-7Bをファインチューニングして得られた、グラウンディング機能を備えたOCRフロントエンドのファミリーです。この単一チェックポイントの視覚言語モデルは、プロンプトベースの統一インターフェースを通じて、文書読解・検出・位置特定機能を提供します。ビジネス文書、学術論文、合成グラウンディングデータで学習されたモデルは、行単位および段落単位のバウンディングボックスを用いた全文ページ読解と局所読解、さらに条件付き「xはどこにある?」クエリに対応します。我々はグラウンディングOCR評価プロトコルを提案し、GutenOCR-7Bが10.5K件の保留されたビジネス・学術ページにおいて、基盤モデルであるQwen2.5-VL-7Bの複合グラウンディングOCRスコアを0.40から0.82へと2倍以上向上させることを実証しました。FoxおよびOmniDocBench v1.5における評価では、本手法が領域レベル・行レベルのOCR精度およびテキスト検出の再現率を大幅に改善する一方、ページレベルでの線形化、色情報を活用したOCR、数式の多いレイアウト処理においてトレードオフが生じることが明らかになりました。
English
GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.