Baseer: Модель обработки визуальных и текстовых данных для преобразования арабских документов в Markdown с использованием OCR
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
Авторы: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Аннотация
Распознавание арабских документов (OCR) остается сложной задачей из-за курсивного письма, разнообразия шрифтов, диакритических знаков и ориентации текста справа налево. Хотя современные мультимодальные языковые модели (MLLM) значительно продвинулись в понимании документов для языков с большими ресурсами, их производительность на арабском языке остается ограниченной. В данной работе мы представляем Baseer, языково-визуальную модель, специально дообученную для OCR арабских документов. Используя масштабный набор данных, сочетающий синтетические и реальные документы, Baseer обучается с помощью стратегии дообучения только декодера, что позволяет адаптировать предварительно обученную MLLM, сохраняя общие визуальные характеристики. Мы также представляем Misraj-DocOCR, высококачественный, проверенный экспертами эталонный набор данных, предназначенный для строгой оценки систем OCR для арабского языка. Наши эксперименты показывают, что Baseer значительно превосходит существующие открытые и коммерческие решения, достигая WER 0.25 и устанавливая новый эталон в области OCR арабских документов. Наши результаты подчеркивают преимущества адаптации универсальных MLLM для конкретных задач и устанавливают прочную основу для высокоточного OCR на морфологически богатых языках, таких как арабский.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.