CHURRO: Geschiedenis Leesbaar Maken met een Open-Weight Groot Visueel-Taalmodel voor Hoogwaardige, Kosteneffectieve Historische Tekstherkenning
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
Auteurs: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
Samenvatting
Nauwkeurige tekstherkenning voor historische documenten kan de studie en het behoud van cultureel erfgoed aanzienlijk bevorderen. Bestaande vision-language modellen (VLMs) zijn echter ontworpen voor moderne, gestandaardiseerde teksten en zijn niet uitgerust om de diverse talen en schriften, onregelmatige lay-outs en veelvoorkomende degradatie in historische materialen te lezen.
Dit artikel presenteert CHURRO, een open-weight VLM met 3B parameters, gespecialiseerd in historische tekstherkenning. Het model is getraind op CHURRO-DS, de grootste dataset voor historische tekstherkenning tot nu toe. CHURRO-DS verenigt 155 historische corpora bestaande uit 99.491 pagina's, die 22 eeuwen tekstueel erfgoed omvatten in 46 taalgroepen, inclusief historische varianten en dode talen.
We evalueren verschillende open-weight en gesloten VLMs en optische tekenherkenningssystemen (OCR) op CHURRO-DS en constateren dat CHURRO alle andere VLMs overtreft. Op de CHURRO-DS testset behaalt CHURRO 82,3% (gedrukt) en 70,1% (handgeschreven) genormaliseerde Levenshtein-gelijkenis, wat respectievelijk 1,4% en 6,5% hoger is dan het op één na beste model, Gemini 2.5 Pro, terwijl het 15,5 keer kosteneffectiever is.
Door het model en de dataset vrij te geven, streven we ernaar om gemeenschapsgedreven onderzoek mogelijk te maken om de leesbaarheid van historische teksten te verbeteren en wetenschappelijk onderzoek te versnellen.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.