Baseer: Een Vision-Language Model voor Arabisch Document-naar-Markdown OCR
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
Auteurs: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Samenvatting
OCR voor Arabische documenten blijft een uitdagende taak vanwege het cursieve schrift, de diverse lettertypen, diakritische tekens en de rechts-naar-links oriëntatie van de taal. Hoewel moderne Multimodale Large Language Models (MLLMs) het documentbegrip voor talen met veel bronnen hebben verbeterd, blijft hun prestaties op Arabisch beperkt. In dit werk introduceren we Baseer, een vision-language model dat specifiek is afgestemd voor OCR van Arabische documenten. Door gebruik te maken van een grootschalige dataset die synthetische en real-world documenten combineert, wordt Baseer getraind met een decoder-only fine-tuning strategie om een vooraf getraind MLLM aan te passen terwijl algemene visuele kenmerken behouden blijven. We presenteren ook Misraj-DocOCR, een hoogwaardige, door experts geverifieerde benchmark ontworpen voor rigoureuze evaluatie van Arabische OCR-systemen. Onze experimenten tonen aan dat Baseer aanzienlijk beter presteert dan bestaande open-source en commerciële oplossingen, met een WER van 0.25 en daarmee een nieuwe state-of-the-art vestigt in het domein van OCR voor Arabische documenten. Onze resultaten benadrukken de voordelen van domeinspecifieke aanpassing van algemene MLLMs en leggen een sterke basis voor hoogwaardige OCR op morfologisch rijke talen zoals het Arabisch.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.