ChatPaper.aiChatPaper

QARI-OCR: Hochpräzise arabische Texterkennung durch Adaption multimodaler großer Sprachmodelle

QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

June 2, 2025
papers.authors: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI

papers.abstract

Die inhärenten Komplexitäten der arabischen Schrift; ihre kursivartige Natur, diakritische Zeichen (Tashkeel) und vielfältige Typografie stellen anhaltende Herausforderungen für die optische Zeichenerkennung (OCR) dar. Wir präsentieren Qari-OCR, eine Reihe von Vision-Language-Modellen, die aus Qwen2-VL-2B-Instruct abgeleitet und durch iteratives Feinabstimmen auf spezialisierten synthetischen Datensätzen schrittweise für Arabisch optimiert wurden. Unser führendes Modell, QARI v0.2, etabliert einen neuen Open-Source-Standard mit einer Wortfehlerrate (WER) von 0,160, einer Zeichenfehlerrate (CER) von 0,061 und einem BLEU-Score von 0,737 bei Texten mit reichhaltigen Diakritika. Qari-OCR zeigt eine überlegene Handhabung von Tashkeel, diversen Schriftarten und Dokumentlayouts sowie beeindruckende Leistungen bei niedrigauflösenden Bildern. Weitere Untersuchungen (QARI v0.3) demonstrieren ein starkes Potenzial für das strukturelle Dokumentverständnis und handschriftliche Texte. Diese Arbeit liefert eine deutliche Verbesserung in der Genauigkeit und Effizienz der arabischen OCR, wobei alle Modelle und Datensätze veröffentlicht werden, um weitere Forschungen zu fördern.
English
The inherent complexities of Arabic script; its cursive nature, diacritical marks (tashkeel), and varied typography, pose persistent challenges for Optical Character Recognition (OCR). We present Qari-OCR, a series of vision-language models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic through iterative fine-tuning on specialized synthetic datasets. Our leading model, QARI v0.2, establishes a new open-source state-of-the-art with a Word Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling of tashkeel, diverse fonts, and document layouts, alongside impressive performance on low-resolution images. Further explorations (QARI v0.3) showcase strong potential for structural document understanding and handwritten text. This work delivers a marked improvement in Arabic OCR accuracy and efficiency, with all models and datasets released to foster further research.
PDF52June 4, 2025