ChatPaper.aiChatPaper

QARI-OCR: Hoogwaardige Arabische Tekstherkenning via Adaptatie van Multimodale Grote Taalmodellen

QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

June 2, 2025
Auteurs: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI

Samenvatting

De inherente complexiteiten van het Arabische schrift; zijn cursieve aard, diakritische tekens (tashkeel) en gevarieerde typografie, vormen aanhoudende uitdagingen voor Optical Character Recognition (OCR). Wij presenteren Qari-OCR, een reeks vision-language modellen afgeleid van Qwen2-VL-2B-Instruct, progressief geoptimaliseerd voor het Arabisch door iteratieve fine-tuning op gespecialiseerde synthetische datasets. Ons toonaangevende model, QARI v0.2, vestigt een nieuwe open-source state-of-the-art met een Word Error Rate (WER) van 0.160, Character Error Rate (CER) van 0.061 en een BLEU-score van 0.737 op teksten rijk aan diakritische tekens. Qari-OCR toont superieure verwerking van tashkeel, diverse lettertypen en documentlay-outs, naast indrukwekkende prestaties op afbeeldingen met lage resolutie. Verdere exploraties (QARI v0.3) tonen sterk potentieel voor structureel documentbegrip en handgeschreven tekst. Dit werk levert een aanzienlijke verbetering in nauwkeurigheid en efficiëntie van Arabische OCR, waarbij alle modellen en datasets worden vrijgegeven om verder onderzoek te bevorderen.
English
The inherent complexities of Arabic script; its cursive nature, diacritical marks (tashkeel), and varied typography, pose persistent challenges for Optical Character Recognition (OCR). We present Qari-OCR, a series of vision-language models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic through iterative fine-tuning on specialized synthetic datasets. Our leading model, QARI v0.2, establishes a new open-source state-of-the-art with a Word Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling of tashkeel, diverse fonts, and document layouts, alongside impressive performance on low-resolution images. Further explorations (QARI v0.3) showcase strong potential for structural document understanding and handwritten text. This work delivers a marked improvement in Arabic OCR accuracy and efficiency, with all models and datasets released to foster further research.
PDF82June 4, 2025