CHURRO: 고정확도, 저비용 역사 문서 인식을 위한 오픈 가중치 대형 시각-언어 모델로 역사를 읽기 쉽게 만들기
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
September 24, 2025
저자: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
cs.AI
초록
역사 문서에 대한 정확한 텍스트 인식은 문화유산 연구와 보존을 크게 진전시킬 수 있습니다. 그러나 기존의 시각-언어 모델(VLMs)은 현대적이고 표준화된 텍스트를 위해 설계되어 역사 자료에서 발견되는 다양한 언어와 문자, 불규칙한 레이아웃, 빈번한 훼손 상태를 읽을 수 있도록 준비되어 있지 않습니다.
이 논문은 역사적 텍스트 인식을 위해 특화된 30억 파라미터의 오픈 웨이트 VLM인 CHURRO를 소개합니다. 이 모델은 현재까지 가장 큰 역사적 텍스트 인식 데이터셋인 CHURRO-DS에서 훈련되었습니다. CHURRO-DS는 22세기에 걸친 46개 언어 군을 포함한 99,491페이지의 155개 역사적 코퍼스를 통합하며, 역사적 변형과 사어도 포함합니다.
CHURRO-DS에서 여러 오픈 웨이트 및 클로즈드 VLMs와 광학 문자 인식(OCR) 시스템을 평가한 결과, CHURRO가 다른 모든 VLMs를 능가하는 성능을 보였습니다. CHURRO-DS 테스트 세트에서 CHURRO는 인쇄본 82.3%, 필사본 70.1%의 정규화된 레벤슈타인 유사도를 달성하며, 두 번째로 우수한 모델인 Gemini 2.5 Pro를 각각 1.4%와 6.5% 앞섰습니다. 또한 CHURRO는 15.5배 더 비용 효율적입니다.
모델과 데이터셋을 공개함으로써, 우리는 역사적 텍스트의 가독성 향상을 위한 커뮤니티 주도 연구를 가능하게 하고 학문적 연구를 가속화하고자 합니다.
English
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.