Baseer: 아랍어 문서를 마크다운으로 변환하는 OCR을 위한 비전-언어 모델
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
저자: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
초록
아랍어 문서 OCR은 필기체 스크립트, 다양한 폰트, 발음 구별 기호, 그리고 오른쪽에서 왼쪽으로의 방향성으로 인해 여전히 어려운 과제로 남아 있습니다. 현대의 멀티모달 대형 언어 모델(MLLMs)이 고자원 언어에 대한 문서 이해를 크게 발전시켰음에도 불구하고, 아랍어에 대한 성능은 여전히 제한적입니다. 본 연구에서는 아랍어 문서 OCR에 특화된 비전-언어 모델인 Baseer를 소개합니다. 합성 및 실제 문서를 결합한 대규모 데이터셋을 활용하여, Baseer는 사전 훈련된 MLLM을 일반 시각적 특징을 보존하면서 적응시키기 위한 디코더 전용 미세 조정 전략으로 훈련되었습니다. 또한, 아랍어 OCR 시스템의 엄격한 평가를 위해 전문가 검증을 거친 고품질 벤치마크인 Misraj-DocOCR을 제시합니다. 실험 결과, Baseer는 기존의 오픈소스 및 상용 솔루션을 크게 능가하며, WER 0.25를 달성하여 아랍어 문서 OCR 분야에서 새로운 최첨단 기술을 확립했습니다. 본 연구 결과는 범용 MLLM의 도메인 특화적 적응의 이점을 강조하며, 아랍어와 같은 형태학적으로 풍부한 언어에 대한 고정확도 OCR을 위한 강력한 기준을 마련했습니다.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.