Baseer : Un modèle vision-langage pour la conversion OCR de documents arabes en Markdown

papers.abstract

La reconnaissance optique de caractères (OCR) pour les documents arabes reste une tâche complexe en raison de l'écriture cursive de la langue, de la diversité des polices, des diacritiques et de l'orientation de droite à gauche. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) modernes aient fait progresser la compréhension des documents pour les langues à ressources abondantes, leurs performances sur l'arabe restent limitées. Dans ce travail, nous présentons Baseer, un modèle vision-langage spécialement affiné pour l'OCR des documents arabes. En exploitant un jeu de données à grande échelle combinant des documents synthétiques et réels, Baseer est entraîné à l'aide d'une stratégie d'affinage de type décodeur uniquement, permettant d'adapter un MLLM pré-entraîné tout en préservant les caractéristiques visuelles générales. Nous présentons également Misraj-DocOCR, un benchmark de haute qualité vérifié par des experts, conçu pour une évaluation rigoureuse des systèmes d'OCR arabes. Nos expériences montrent que Baseer surpasse significativement les solutions open-source et commerciales existantes, atteignant un taux d'erreur de mots (WER) de 0,25 et établissant un nouvel état de l'art dans le domaine de l'OCR des documents arabes. Nos résultats mettent en évidence les avantages de l'adaptation spécifique au domaine des MLLMs à usage général et établissent une base solide pour une OCR de haute précision sur des langues morphologiquement riches comme l'arabe.

English

Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine- tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.

Baseer : Un modèle vision-langage pour la conversion OCR de documents arabes en Markdown

Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

papers.abstract

Support