QARI-OCR: Hoogwaardige Arabische Tekstherkenning via Adaptatie van Multimodale Grote Taalmodellen
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
June 2, 2025
Auteurs: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI
Samenvatting
De inherente complexiteiten van het Arabische schrift; zijn cursieve aard, diakritische tekens (tashkeel) en gevarieerde typografie, vormen aanhoudende uitdagingen voor Optical Character Recognition (OCR). Wij presenteren Qari-OCR, een reeks vision-language modellen afgeleid van Qwen2-VL-2B-Instruct, progressief geoptimaliseerd voor het Arabisch door iteratieve fine-tuning op gespecialiseerde synthetische datasets. Ons toonaangevende model, QARI v0.2, vestigt een nieuwe open-source state-of-the-art met een Word Error Rate (WER) van 0.160, Character Error Rate (CER) van 0.061 en een BLEU-score van 0.737 op teksten rijk aan diakritische tekens. Qari-OCR toont superieure verwerking van tashkeel, diverse lettertypen en documentlay-outs, naast indrukwekkende prestaties op afbeeldingen met lage resolutie. Verdere exploraties (QARI v0.3) tonen sterk potentieel voor structureel documentbegrip en handgeschreven tekst. Dit werk levert een aanzienlijke verbetering in nauwkeurigheid en efficiëntie van Arabische OCR, waarbij alle modellen en datasets worden vrijgegeven om verder onderzoek te bevorderen.
English
The inherent complexities of Arabic script; its cursive nature, diacritical
marks (tashkeel), and varied typography, pose persistent challenges for Optical
Character Recognition (OCR). We present Qari-OCR, a series of vision-language
models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic
through iterative fine-tuning on specialized synthetic datasets. Our leading
model, QARI v0.2, establishes a new open-source state-of-the-art with a Word
Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score
of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling
of tashkeel, diverse fonts, and document layouts, alongside impressive
performance on low-resolution images. Further explorations (QARI v0.3) showcase
strong potential for structural document understanding and handwritten text.
This work delivers a marked improvement in Arabic OCR accuracy and efficiency,
with all models and datasets released to foster further research.