GutenOCR: Uma Interface de Visão Computacional e Linguagem Fundamentada para Documentos

Resumo

GutenOCR é uma família de interfaces de OCR fundamentadas obtidas através do ajuste fino dos modelos Qwen2.5-VL-3B e Qwen2.5-VL-7B. Os modelos de visão e linguagem resultantes, de checkpoint único, expõem funcionalidades de leitura, deteção e fundamentação através de uma interface unificada baseada em prompts. Treinados em documentos empresariais, artigos científicos e dados sintéticos de fundamentação, os modelos suportam leitura de página completa e localizada com caixas delimitadoras ao nível de linha e parágrafo, e consultas condicionais do tipo "onde está x?". Introduzimos um protocolo de avaliação de OCR fundamentado e demonstramos que o GutenOCR-7B mais do que duplica a pontuação composta de OCR fundamentado da sua base Qwen2.5-VL-7B em 10,5 mil páginas empresariais e científicas retidas para teste (de 0,40 para 0,82). Nos benchmarks Fox e OmniDocBench v1.5, a nossa abordagem melhora substancialmente o OCR a nível de região e de linha, bem como a recuperação (recall) de deteção de texto, mas revela compromissos (trade-offs) na linearização a nível de página, no OCR guiado por cor e em layouts com densidade de fórmulas.

English

GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.