CHURRO: Geschichte lesbar machen mit einem Open-Weight Large Vision-Language Model für hochpräzise, kostengünstige historische Texterkennung
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
papers.authors: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
papers.abstract
Eine präzise Texterkennung für historische Dokumente kann die Erforschung und Bewahrung des kulturellen Erbes erheblich vorantreiben. Bestehende Vision-Language-Modelle (VLMs) sind jedoch für moderne, standardisierte Texte konzipiert und nicht darauf ausgelegt, die vielfältigen Sprachen und Schriften, unregelmäßigen Layouts und häufigen Beschädigungen zu lesen, die in historischen Materialien vorkommen.
Dieses Papier stellt CHURRO vor, ein 3B-Parameter Open-Weight-VLM, das speziell für die historische Texterkennung entwickelt wurde. Das Modell wird auf CHURRO-DS trainiert, dem bisher größten Datensatz für historische Texterkennung. CHURRO-DS vereint 155 historische Korpora mit 99.491 Seiten, die 22 Jahrhunderte textuellen Erbes in 46 Sprachgruppen umfassen, einschließlich historischer Varianten und ausgestorbener Sprachen.
Wir evaluieren mehrere Open-Weight- und Closed-VLMs sowie optische Zeichenerkennungssysteme (OCR) auf CHURRO-DS und stellen fest, dass CHURRO alle anderen VLMs übertrifft. Auf dem CHURRO-DS-Testset erreicht CHURRO eine normalisierte Levenshtein-Ähnlichkeit von 82,3 % (gedruckt) und 70,1 % (handschriftlich) und übertrifft damit das zweitbeste Modell, Gemini 2.5 Pro, um 1,4 % bzw. 6,5 %, während es gleichzeitig 15,5-mal kosteneffizienter ist.
Durch die Veröffentlichung des Modells und des Datensatzes möchten wir community-getriebene Forschung ermöglichen, um die Lesbarkeit historischer Texte zu verbessern und die wissenschaftliche Arbeit zu beschleunigen.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.