CHURRO: Повышение читаемости исторических документов с помощью открытой крупной визуально-языковой модели для высокоточного и экономичного распознавания исторических текстов
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
Авторы: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
Аннотация
Точное распознавание текста в исторических документах может значительно продвинуть изучение и сохранение культурного наследия. Однако существующие модели, объединяющие зрение и язык (VLMs), разработаны для современных стандартизированных текстов и не способны читать разнообразные языки и письменности, нерегулярные макеты и часто встречающиеся повреждения, характерные для исторических материалов.
В данной статье представлена CHURRO — открытая модель VLM с 3 миллиардами параметров, специализированная для распознавания исторических текстов. Модель обучена на CHURRO-DS, крупнейшем на сегодняшний день наборе данных для распознавания исторических текстов. CHURRO-DS объединяет 155 исторических корпусов, включающих 99 491 страницу, охватывающих 22 века текстового наследия на 46 языковых группах, включая исторические варианты и мертвые языки.
Мы оценили несколько открытых и закрытых моделей VLM, а также систем оптического распознавания символов (OCR) на CHURRO-DS и обнаружили, что CHURRO превосходит все другие модели VLM. На тестовом наборе CHURRO-DS CHURRO достигает 82,3% (печатный текст) и 70,1% (рукописный текст) нормализованного сходства по Левенштейну, опережая вторую лучшую модель, Gemini 2.5 Pro, на 1,4% и 6,5% соответственно, при этом будучи в 15,5 раз более экономически эффективной.
Публикуя модель и набор данных, мы стремимся способствовать исследованиям, проводимым сообществом, для улучшения читаемости исторических текстов и ускорения научных изысканий.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.