ChatPaper.aiChatPaper

GutenOCR : une interface vision-langage fondée pour les documents

GutenOCR: A Grounded Vision-Language Front-End for Documents

January 20, 2026
papers.authors: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew
cs.AI

papers.abstract

GutenOCR est une famille de frontaux OCR ancrés obtenus par affinage de Qwen2.5-VL-3B et Qwen2.5-VL-7B. Les modèles vision-langue résultants, à point de contrôle unique, exposent la lecture, la détection et l'ancrage via une interface unifiée et basée sur des invites. Entraînés sur des documents professionnels, des articles scientifiques et des données d'ancrage synthétiques, ces modèles prennent en charge la lecture de page entière et localisée avec des boîtes englobantes au niveau de la ligne et du paragraphe, ainsi que des requêtes conditionnelles du type « où se trouve x ? ». Nous introduisons un protocole d'évaluation d'OCR ancré et montrons que GutenOCR-7B multiplie par plus de deux le score composite d'OCR ancré de son modèle de base Qwen2.5-VL-7B sur 10,5 mille pages professionnelles et scientifiques retenues pour les tests (passant de 0,40 à 0,82). Sur Fox et OmniDocBench v1.5, notre approche améliore considérablement l'OCR au niveau des régions et des lignes ainsi que le rappel en détection de texte, mais révèle des compromis dans la linéarisation au niveau de la page, l'OCR guidé par la couleur et les mises en page riches en formules.
English
GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.
PDF142January 23, 2026