ChatPaper.aiChatPaper

CHURRO: Tornando a História Legível com um Modelo de Grande Escala Visão-Linguagem de Pesos Abertos para Reconhecimento de Textos Históricos de Alta Precisão e Baixo Custo

CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

September 24, 2025
Autores: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI

Resumo

O reconhecimento preciso de textos em documentos históricos pode avançar significativamente o estudo e a preservação do patrimônio cultural. No entanto, os modelos visão-linguagem (VLMs) existentes são projetados para textos modernos e padronizados, não estando equipados para ler a diversidade de idiomas e escritas, layouts irregulares e degradações frequentes encontradas em materiais históricos. Este artigo apresenta o CHURRO, um VLM de 3 bilhões de parâmetros e pesos abertos, especializado no reconhecimento de textos históricos. O modelo é treinado no CHURRO-DS, o maior conjunto de dados de reconhecimento de textos históricos até o momento. O CHURRO-DS unifica 155 corpora históricos, compreendendo 99.491 páginas, abrangendo 22 séculos de herança textual em 46 agrupamentos linguísticos, incluindo variantes históricas e línguas extintas. Avaliamos vários VLMs de pesos abertos e fechados, além de sistemas de reconhecimento óptico de caracteres (OCR), no CHURRO-DS e descobrimos que o CHURRO supera todos os outros VLMs. No conjunto de testes do CHURRO-DS, o CHURRO alcança 82,3% (impresso) e 70,1% (manuscrito) de similaridade normalizada de Levenshtein, superando o segundo melhor modelo, o Gemini 2.5 Pro, em 1,4% e 6,5%, respectivamente, enquanto é 15,5 vezes mais econômico. Ao liberar o modelo e o conjunto de dados, nosso objetivo é permitir pesquisas impulsionadas pela comunidade para melhorar a legibilidade de textos históricos e acelerar o avanço acadêmico.
English
Accurate text recognition for historical documents can greatly advance the study and preservation of cultural heritage. Existing vision-language models (VLMs), however, are designed for modern, standardized texts and are not equipped to read the diverse languages and scripts, irregular layouts, and frequent degradation found in historical materials. This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for historical text recognition. The model is trained on CHURRO-DS, the largest historical text recognition dataset to date. CHURRO-DS unifies 155 historical corpora comprising 99,491 pages, spanning 22 centuries of textual heritage across 46 language clusters, including historical variants and dead languages. We evaluate several open-weight and closed VLMs and optical character recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and 70.1% (handwritten) normalized Levenshtein similarity, surpassing the second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being 15.5 times more cost-effective. By releasing the model and dataset, we aim to enable community-driven research to improve the readability of historical texts and accelerate scholarship.
PDF32September 29, 2025