CHURRO: Rendere la storia leggibile con un modello linguistico-visivo open-weight di grandi dimensioni per il riconoscimento ad alta precisione e basso costo di testi storici
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
Autori: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
Abstract
Il riconoscimento accurato dei testi storici può contribuire significativamente allo studio e alla conservazione del patrimonio culturale. Tuttavia, i modelli visione-linguaggio (VLM) esistenti sono progettati per testi moderni e standardizzati e non sono adatti a leggere le diverse lingue e grafie, i layout irregolari e il frequente degrado presenti nei materiali storici.
Questo articolo presenta CHURRO, un VLM open-weight da 3 miliardi di parametri specializzato nel riconoscimento di testi storici. Il modello è addestrato su CHURRO-DS, il più grande dataset di riconoscimento di testi storici fino ad oggi. CHURRO-DS unisce 155 corpora storici composti da 99.491 pagine, che coprono 22 secoli di patrimonio testuale in 46 gruppi linguistici, inclusi varianti storiche e lingue morte.
Abbiamo valutato diversi VLM open-weight e chiusi, nonché sistemi di riconoscimento ottico dei caratteri (OCR), su CHURRO-DS e abbiamo riscontrato che CHURRO supera tutti gli altri VLM. Sul test set di CHURRO-DS, CHURRO raggiunge un 82,3% (stampa) e un 70,1% (manoscritto) di similarità di Levenshtein normalizzata, superando rispettivamente del 1,4% e del 6,5% il secondo miglior modello, Gemini 2.5 Pro, pur essendo 15,5 volte più conveniente in termini di costi.
Rilasciando il modello e il dataset, miriamo a favorire la ricerca guidata dalla comunità per migliorare la leggibilità dei testi storici e accelerare gli studi accademici.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.