CHURRO : Rendre l'histoire lisible grâce à un grand modèle vision-langage à poids ouvert pour la reconnaissance de textes historiques à haute précision et faible coût
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
papers.authors: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
papers.abstract
La reconnaissance précise des textes historiques peut grandement faire avancer l'étude et la préservation du patrimoine culturel. Cependant, les modèles vision-langage (VLMs) existants sont conçus pour des textes modernes et standardisés, et ne sont pas équipés pour lire la diversité des langues et des écritures, les mises en page irrégulières et les dégradations fréquentes présentes dans les documents historiques.
Cet article présente CHURRO, un VLM open-weight de 3 milliards de paramètres spécialisé dans la reconnaissance de textes historiques. Le modèle est entraîné sur CHURRO-DS, le plus grand ensemble de données de reconnaissance de textes historiques à ce jour. CHURRO-DS unifie 155 corpus historiques comprenant 99 491 pages, couvrant 22 siècles de patrimoine textuel à travers 46 groupes linguistiques, incluant des variantes historiques et des langues mortes.
Nous évaluons plusieurs VLMs open-weight et fermés ainsi que des systèmes de reconnaissance optique de caractères (OCR) sur CHURRO-DS et constatons que CHURRO surpasse tous les autres VLMs. Sur l'ensemble de test de CHURRO-DS, CHURRO atteint 82,3 % (imprimé) et 70,1 % (manuscrit) de similarité normalisée de Levenshtein, surpassant le deuxième meilleur modèle, Gemini 2.5 Pro, de 1,4 % et 6,5 % respectivement, tout en étant 15,5 fois plus rentable.
En publiant le modèle et l'ensemble de données, nous visons à permettre une recherche communautaire pour améliorer la lisibilité des textes historiques et accélérer les travaux académiques.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.