Baseer: Ein Vision-Sprach-Modell für die arabische Dokument-zu-Markdown-OCR
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
papers.authors: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
papers.abstract
Die OCR von arabischen Dokumenten bleibt aufgrund der kursiven Schrift, der vielfältigen Schriftarten, der Diakritika und der rechts-nach-links-Ausrichtung eine herausfordernde Aufgabe. Während moderne Multimodale Große Sprachmodelle (MLLMs) das Verständnis von Dokumenten für hochressourcenreiche Sprachen vorangetrieben haben, bleibt ihre Leistung bei Arabisch begrenzt. In dieser Arbeit stellen wir Baseer vor, ein Vision-Sprache-Modell, das speziell für die OCR von arabischen Dokumenten feinabgestimmt wurde. Durch die Nutzung eines groß angelegten Datensatzes, der synthetische und reale Dokumente kombiniert, wird Baseer mit einer nur-Decoder-Feinabstimmungsstrategie trainiert, um ein vortrainiertes MLLM anzupassen, während allgemeine visuelle Merkmale erhalten bleiben. Wir präsentieren auch Misraj-DocOCR, einen hochwertigen, von Experten verifizierten Benchmark, der für die strenge Bewertung von arabischen OCR-Systemen entwickelt wurde. Unsere Experimente zeigen, dass Baseer bestehende Open-Source- und kommerzielle Lösungen deutlich übertrifft, mit einer WER von 0,25 und setzt damit einen neuen Maßstab im Bereich der arabischen Dokumenten-OCR. Unsere Ergebnisse unterstreichen die Vorteile der domänenspezifischen Anpassung von allgemeinen MLLMs und etablieren eine starke Basis für hochpräzise OCR bei morphologisch reichen Sprachen wie Arabisch.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.