ChatPaper.aiChatPaper

QARI-OCR : Reconnaissance haute fidélité de texte arabe grâce à l'adaptation de modèles de langage multimodaux de grande taille

QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

June 2, 2025
Auteurs: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI

Résumé

Les complexités inhérentes de l'écriture arabe ; sa nature cursive, ses marques diacritiques (tashkeel) et sa typographie variée, posent des défis persistants pour la Reconnaissance Optique de Caractères (OCR). Nous présentons Qari-OCR, une série de modèles vision-langage dérivés de Qwen2-VL-2B-Instruct, progressivement optimisés pour l'arabe grâce à un affinage itératif sur des ensembles de données synthétiques spécialisés. Notre modèle phare, QARI v0.2, établit un nouvel état de l'art open-source avec un taux d'erreur par mot (WER) de 0,160, un taux d'erreur par caractère (CER) de 0,061 et un score BLEU de 0,737 sur des textes riches en diacritiques. Qari-OCR démontre une gestion supérieure des tashkeel, des polices variées et des mises en page de documents, ainsi qu'une performance impressionnante sur les images à basse résolution. Des explorations supplémentaires (QARI v0.3) montrent un fort potentiel pour la compréhension structurelle des documents et la reconnaissance de textes manuscrits. Ce travail apporte une amélioration notable en termes de précision et d'efficacité de l'OCR arabe, avec tous les modèles et ensembles de données publiés pour favoriser des recherches ultérieures.
English
The inherent complexities of Arabic script; its cursive nature, diacritical marks (tashkeel), and varied typography, pose persistent challenges for Optical Character Recognition (OCR). We present Qari-OCR, a series of vision-language models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic through iterative fine-tuning on specialized synthetic datasets. Our leading model, QARI v0.2, establishes a new open-source state-of-the-art with a Word Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling of tashkeel, diverse fonts, and document layouts, alongside impressive performance on low-resolution images. Further explorations (QARI v0.3) showcase strong potential for structural document understanding and handwritten text. This work delivers a marked improvement in Arabic OCR accuracy and efficiency, with all models and datasets released to foster further research.
PDF22June 4, 2025