CHURRO: Geschiedenis Leesbaar Maken met een Open-Weight Groot Visueel-Taalmodel voor Hoogwaardige, Kosteneffectieve Historische Tekstherkenning

Samenvatting

Nauwkeurige tekstherkenning voor historische documenten kan de studie en het behoud van cultureel erfgoed aanzienlijk bevorderen. Bestaande vision-language modellen (VLMs) zijn echter ontworpen voor moderne, gestandaardiseerde teksten en zijn niet uitgerust om de diverse talen en schriften, onregelmatige lay-outs en veelvoorkomende degradatie in historische materialen te lezen. Dit artikel presenteert CHURRO, een open-weight VLM met 3B parameters, gespecialiseerd in historische tekstherkenning. Het model is getraind op CHURRO-DS, de grootste dataset voor historische tekstherkenning tot nu toe. CHURRO-DS verenigt 155 historische corpora bestaande uit 99.491 pagina's, die 22 eeuwen tekstueel erfgoed omvatten in 46 taalgroepen, inclusief historische varianten en dode talen. We evalueren verschillende open-weight en gesloten VLMs en optische tekenherkenningssystemen (OCR) op CHURRO-DS en constateren dat CHURRO alle andere VLMs overtreft. Op de CHURRO-DS testset behaalt CHURRO 82,3% (gedrukt) en 70,1% (handgeschreven) genormaliseerde Levenshtein-gelijkenis, wat respectievelijk 1,4% en 6,5% hoger is dan het op één na beste model, Gemini 2.5 Pro, terwijl het 15,5 keer kosteneffectiever is. Door het model en de dataset vrij te geven, streven we ernaar om gemeenschapsgedreven onderzoek mogelijk te maken om de leesbaarheid van historische teksten te verbeteren en wetenschappelijk onderzoek te versnellen.

English

Accurate text recognition for historical documents can greatly advance the study and preservation of cultural heritage. Existing vision-language models (VLMs), however, are designed for modern, standardized texts and are not equipped to read the diverse languages and scripts, irregular layouts, and frequent degradation found in historical materials. This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for historical text recognition. The model is trained on CHURRO-DS, the largest historical text recognition dataset to date. CHURRO-DS unifies 155 historical corpora comprising 99,491 pages, spanning 22 centuries of textual heritage across 46 language clusters, including historical variants and dead languages. We evaluate several open-weight and closed VLMs and optical character recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and 70.1% (handwritten) normalized Levenshtein similarity, surpassing the second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being 15.5 times more cost-effective. By releasing the model and dataset, we aim to enable community-driven research to improve the readability of historical texts and accelerate scholarship.

CHURRO: Geschiedenis Leesbaar Maken met een Open-Weight Groot Visueel-Taalmodel voor Hoogwaardige, Kosteneffectieve Historische Tekstherkenning

CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

Samenvatting

Support