ChatPaper.aiChatPaper

GutenOCR: Un Front-End de Visión por Computador y Lenguaje Fundamentado para Documentos

GutenOCR: A Grounded Vision-Language Front-End for Documents

January 20, 2026
Autores: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew
cs.AI

Resumen

GutenOCR es una familia de frontales de OCR con base obtenidos mediante el ajuste fino de Qwen2.5-VL-3B y Qwen2.5-VL-7B. Los modelos de visión y lenguaje resultantes, de punto de control único, exponen capacidades de lectura, detección y localización a través de una interfaz unificada basada en prompts. Entrenados en documentos comerciales, artículos científicos y datos sintéticos de localización, los modelos admiten lectura de página completa y localizada con cuadros delimitadores a nivel de línea y párrafo, y consultas condicionales del tipo "¿dónde está x?". Introducimos un protocolo de evaluación de OCR con base y demostramos que GutenOCR-7B más que duplica la puntuación compuesta de OCR con base de su modelo base Qwen2.5-VL-7B en 10.5K páginas comerciales y científicas retenidas (de 0.40 a 0.82). En Fox y OmniDocBench v1.5, nuestro enfoque mejora sustancialmente el OCR a nivel de región y línea, así como la recuperación en la detección de texto, pero revela compensaciones en la linealización a nivel de página, el OCR guiado por color y los diseños con gran cantidad de fórmulas.
English
GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.
PDF142January 23, 2026