Baseer : Un modèle vision-langage pour la conversion OCR de documents arabes en Markdown
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
papers.authors: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
papers.abstract
La reconnaissance optique de caractères (OCR) pour les documents arabes reste une tâche complexe en raison de l'écriture cursive de la langue, de la diversité des polices, des diacritiques et de l'orientation de droite à gauche. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) modernes aient fait progresser la compréhension des documents pour les langues à ressources abondantes, leurs performances sur l'arabe restent limitées. Dans ce travail, nous présentons Baseer, un modèle vision-langage spécialement affiné pour l'OCR des documents arabes. En exploitant un jeu de données à grande échelle combinant des documents synthétiques et réels, Baseer est entraîné à l'aide d'une stratégie d'affinage de type décodeur uniquement, permettant d'adapter un MLLM pré-entraîné tout en préservant les caractéristiques visuelles générales. Nous présentons également Misraj-DocOCR, un benchmark de haute qualité vérifié par des experts, conçu pour une évaluation rigoureuse des systèmes d'OCR arabes. Nos expériences montrent que Baseer surpasse significativement les solutions open-source et commerciales existantes, atteignant un taux d'erreur de mots (WER) de 0,25 et établissant un nouvel état de l'art dans le domaine de l'OCR des documents arabes. Nos résultats mettent en évidence les avantages de l'adaptation spécifique au domaine des MLLMs à usage général et établissent une base solide pour une OCR de haute précision sur des langues morphologiquement riches comme l'arabe.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.