CHURRO: Повышение читаемости исторических документов с помощью открытой крупной визуально-языковой модели для высокоточного и экономичного распознавания исторических текстов

Аннотация

Точное распознавание текста в исторических документах может значительно продвинуть изучение и сохранение культурного наследия. Однако существующие модели, объединяющие зрение и язык (VLMs), разработаны для современных стандартизированных текстов и не способны читать разнообразные языки и письменности, нерегулярные макеты и часто встречающиеся повреждения, характерные для исторических материалов. В данной статье представлена CHURRO — открытая модель VLM с 3 миллиардами параметров, специализированная для распознавания исторических текстов. Модель обучена на CHURRO-DS, крупнейшем на сегодняшний день наборе данных для распознавания исторических текстов. CHURRO-DS объединяет 155 исторических корпусов, включающих 99 491 страницу, охватывающих 22 века текстового наследия на 46 языковых группах, включая исторические варианты и мертвые языки. Мы оценили несколько открытых и закрытых моделей VLM, а также систем оптического распознавания символов (OCR) на CHURRO-DS и обнаружили, что CHURRO превосходит все другие модели VLM. На тестовом наборе CHURRO-DS CHURRO достигает 82,3% (печатный текст) и 70,1% (рукописный текст) нормализованного сходства по Левенштейну, опережая вторую лучшую модель, Gemini 2.5 Pro, на 1,4% и 6,5% соответственно, при этом будучи в 15,5 раз более экономически эффективной. Публикуя модель и набор данных, мы стремимся способствовать исследованиям, проводимым сообществом, для улучшения читаемости исторических текстов и ускорения научных изысканий.

English

Accurate text recognition for historical documents can greatly advance the study and preservation of cultural heritage. Existing vision-language models (VLMs), however, are designed for modern, standardized texts and are not equipped to read the diverse languages and scripts, irregular layouts, and frequent degradation found in historical materials. This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for historical text recognition. The model is trained on CHURRO-DS, the largest historical text recognition dataset to date. CHURRO-DS unifies 155 historical corpora comprising 99,491 pages, spanning 22 centuries of textual heritage across 46 language clusters, including historical variants and dead languages. We evaluate several open-weight and closed VLMs and optical character recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and 70.1% (handwritten) normalized Levenshtein similarity, surpassing the second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being 15.5 times more cost-effective. By releasing the model and dataset, we aim to enable community-driven research to improve the readability of historical texts and accelerate scholarship.