GutenOCR: un'interfaccia fondata visione-linguaggio per documenti

Abstract

GutenOCR è una famiglia di front-end OCR con grounding ottenuti mediante fine-tuning di Qwen2.5-VL-3B e Qwen2.5-VL-7B. I modelli visione-linguaggio risultanti, a checkpoint singolo, espongono funzionalità di lettura, rilevamento e grounding attraverso un'interfaccia unificata basata su prompt. Addestrati su documenti aziendali, articoli scientifici e dati sintetici di grounding, i modelli supportano la lettura di intere pagine e localizzata, con bounding box a livello di riga e paragrafo, e query condizionali del tipo "dove si trova x?". Introduciamo un protocollo di valutazione per OCR con grounding e dimostriamo che GutenOCR-7B più che raddoppia il punteggio composito di OCR con grounding del suo backbone Qwen2.5-VL-7B su 10.5K pagine aziendali e scientifiche tenute da parte (da 0.40 a 0.82). Su Fox e OmniDocBench v1.5, il nostro approccio migliora sostanzialmente l'OCR a livello di regione e di riga, nonché il richiamo del rilevamento del testo, ma rivela compromessi nella linearizzazione a livello di pagina, nell'OCR guidato dal colore e nei layout ricchi di formule.

English

GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.

GutenOCR: un'interfaccia fondata visione-linguaggio per documenti

GutenOCR: A Grounded Vision-Language Front-End for Documents

Abstract

Support