CHURRO: Haciendo la historia legible con un modelo de visión y lenguaje de gran escala de pesos abiertos para el reconocimiento de textos históricos de alta precisión y bajo costo
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
Autores: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
Resumen
El reconocimiento preciso de textos históricos puede impulsar significativamente el estudio y la preservación del patrimonio cultural. Sin embargo, los modelos de visión y lenguaje (VLMs) existentes están diseñados para textos modernos y estandarizados, y no están preparados para leer los diversos idiomas y escrituras, los diseños irregulares y la degradación frecuente presentes en los materiales históricos.
Este artículo presenta CHURRO, un VLM de 3 mil millones de parámetros de código abierto especializado en el reconocimiento de textos históricos. El modelo se entrena con CHURRO-DS, el conjunto de datos más grande hasta la fecha para el reconocimiento de textos históricos. CHURRO-DS unifica 155 corpus históricos que comprenden 99,491 páginas, abarcando 22 siglos de herencia textual en 46 grupos lingüísticos, incluyendo variantes históricas y lenguas muertas.
Evaluamos varios VLMs de código abierto y cerrado, así como sistemas de reconocimiento óptico de caracteres (OCR), en CHURRO-DS y encontramos que CHURRO supera a todos los demás VLMs. En el conjunto de pruebas de CHURRO-DS, CHURRO alcanza un 82.3% (impreso) y un 70.1% (manuscrito) de similitud normalizada de Levenshtein, superando al segundo mejor modelo, Gemini 2.5 Pro, en un 1.4% y un 6.5%, respectivamente, mientras es 15.5 veces más rentable.
Al liberar el modelo y el conjunto de datos, buscamos fomentar la investigación impulsada por la comunidad para mejorar la legibilidad de los textos históricos y acelerar el avance académico.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.