CHURRO: Tornando a História Legível com um Modelo de Grande Escala Visão-Linguagem de Pesos Abertos para Reconhecimento de Textos Históricos de Alta Precisão e Baixo Custo
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
Autores: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
Resumo
O reconhecimento preciso de textos em documentos históricos pode avançar significativamente o estudo e a preservação do patrimônio cultural. No entanto, os modelos visão-linguagem (VLMs) existentes são projetados para textos modernos e padronizados, não estando equipados para ler a diversidade de idiomas e escritas, layouts irregulares e degradações frequentes encontradas em materiais históricos.
Este artigo apresenta o CHURRO, um VLM de 3 bilhões de parâmetros e pesos abertos, especializado no reconhecimento de textos históricos. O modelo é treinado no CHURRO-DS, o maior conjunto de dados de reconhecimento de textos históricos até o momento. O CHURRO-DS unifica 155 corpora históricos, compreendendo 99.491 páginas, abrangendo 22 séculos de herança textual em 46 agrupamentos linguísticos, incluindo variantes históricas e línguas extintas.
Avaliamos vários VLMs de pesos abertos e fechados, além de sistemas de reconhecimento óptico de caracteres (OCR), no CHURRO-DS e descobrimos que o CHURRO supera todos os outros VLMs. No conjunto de testes do CHURRO-DS, o CHURRO alcança 82,3% (impresso) e 70,1% (manuscrito) de similaridade normalizada de Levenshtein, superando o segundo melhor modelo, o Gemini 2.5 Pro, em 1,4% e 6,5%, respectivamente, enquanto é 15,5 vezes mais econômico.
Ao liberar o modelo e o conjunto de dados, nosso objetivo é permitir pesquisas impulsionadas pela comunidade para melhorar a legibilidade de textos históricos e acelerar o avanço acadêmico.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.