Baseer: Un Modello Visione-Linguaggio per OCR da Documento a Markdown in Arabo
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
Autori: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Abstract
L'OCR per documenti in arabo rimane un compito impegnativo a causa della scrittura corsiva della lingua, dei caratteri tipografici vari, dei segni diacritici e dell'orientamento da destra a sinistra. Sebbene i moderni Modelli Linguistici Multimodali (MLLM) abbiano fatto progressi nella comprensione dei documenti per le lingue ad alta risorsa, le loro prestazioni sull'arabo rimangono limitate. In questo lavoro, presentiamo Baseer, un modello visione-linguaggio fine-tuned specificamente per l'OCR di documenti in arabo. Sfruttando un ampio dataset che combina documenti sintetici e del mondo reale, Baseer viene addestrato utilizzando una strategia di fine-tuning decoder-only per adattare un MLLM pre-addestrato preservando le caratteristiche visive generali. Presentiamo inoltre Misraj-DocOCR, un benchmark di alta qualità verificato da esperti, progettato per una valutazione rigorosa dei sistemi OCR per l'arabo. I nostri esperimenti dimostrano che Baseer supera significativamente le soluzioni open-source e commerciali esistenti, raggiungendo un WER di 0,25 e stabilendo un nuovo stato dell'arte nel campo dell'OCR per documenti in arabo. I nostri risultati evidenziano i vantaggi dell'adattamento specifico per dominio di MLLM generici e stabiliscono una solida baseline per un OCR ad alta precisione su lingue morfologicamente ricche come l'arabo.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.