ChatPaper.aiChatPaper

CHURRO: Geschichte lesbar machen mit einem Open-Weight Large Vision-Language Model für hochpräzise, kostengünstige historische Texterkennung

CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

September 24, 2025
papers.authors: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI

papers.abstract

Eine präzise Texterkennung für historische Dokumente kann die Erforschung und Bewahrung des kulturellen Erbes erheblich vorantreiben. Bestehende Vision-Language-Modelle (VLMs) sind jedoch für moderne, standardisierte Texte konzipiert und nicht darauf ausgelegt, die vielfältigen Sprachen und Schriften, unregelmäßigen Layouts und häufigen Beschädigungen zu lesen, die in historischen Materialien vorkommen. Dieses Papier stellt CHURRO vor, ein 3B-Parameter Open-Weight-VLM, das speziell für die historische Texterkennung entwickelt wurde. Das Modell wird auf CHURRO-DS trainiert, dem bisher größten Datensatz für historische Texterkennung. CHURRO-DS vereint 155 historische Korpora mit 99.491 Seiten, die 22 Jahrhunderte textuellen Erbes in 46 Sprachgruppen umfassen, einschließlich historischer Varianten und ausgestorbener Sprachen. Wir evaluieren mehrere Open-Weight- und Closed-VLMs sowie optische Zeichenerkennungssysteme (OCR) auf CHURRO-DS und stellen fest, dass CHURRO alle anderen VLMs übertrifft. Auf dem CHURRO-DS-Testset erreicht CHURRO eine normalisierte Levenshtein-Ähnlichkeit von 82,3 % (gedruckt) und 70,1 % (handschriftlich) und übertrifft damit das zweitbeste Modell, Gemini 2.5 Pro, um 1,4 % bzw. 6,5 %, während es gleichzeitig 15,5-mal kosteneffizienter ist. Durch die Veröffentlichung des Modells und des Datensatzes möchten wir community-getriebene Forschung ermöglichen, um die Lesbarkeit historischer Texte zu verbessern und die wissenschaftliche Arbeit zu beschleunigen.
English
Accurate text recognition for historical documents can greatly advance the study and preservation of cultural heritage. Existing vision-language models (VLMs), however, are designed for modern, standardized texts and are not equipped to read the diverse languages and scripts, irregular layouts, and frequent degradation found in historical materials. This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for historical text recognition. The model is trained on CHURRO-DS, the largest historical text recognition dataset to date. CHURRO-DS unifies 155 historical corpora comprising 99,491 pages, spanning 22 centuries of textual heritage across 46 language clusters, including historical variants and dead languages. We evaluate several open-weight and closed VLMs and optical character recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and 70.1% (handwritten) normalized Levenshtein similarity, surpassing the second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being 15.5 times more cost-effective. By releasing the model and dataset, we aim to enable community-driven research to improve the readability of historical texts and accelerate scholarship.
PDF22September 29, 2025