QARI-OCR: Высококачественное распознавание арабского текста посредством адаптации мультимодальных больших языковых моделей
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
June 2, 2025
Авторы: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI
Аннотация
Врожденные сложности арабской письменности, такие как ее курсивный характер, диакритические знаки (ташкиль) и разнообразие типографики, создают устойчивые проблемы для оптического распознавания символов (OCR). Мы представляем Qari-OCR — серию моделей, основанных на визуально-языковых технологиях, производных от Qwen2-VL-2B-Instruct, которые последовательно оптимизированы для арабского языка путем итеративной тонкой настройки на специализированных синтетических наборах данных. Наша ведущая модель, QARI v0.2, устанавливает новый открытый эталон с показателями Word Error Rate (WER) 0.160, Character Error Rate (CER) 0.061 и BLEU score 0.737 на текстах с богатым использованием диакритики. Qari-OCR демонстрирует превосходное обращение с ташкилем, разнообразием шрифтов и макетов документов, а также впечатляющую производительность на изображениях с низким разрешением. Дальнейшие исследования (QARI v0.3) показывают значительный потенциал для понимания структуры документов и рукописного текста. Данная работа обеспечивает заметное улучшение точности и эффективности OCR для арабского языка, при этом все модели и наборы данных опубликованы для стимулирования дальнейших исследований.
English
The inherent complexities of Arabic script; its cursive nature, diacritical
marks (tashkeel), and varied typography, pose persistent challenges for Optical
Character Recognition (OCR). We present Qari-OCR, a series of vision-language
models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic
through iterative fine-tuning on specialized synthetic datasets. Our leading
model, QARI v0.2, establishes a new open-source state-of-the-art with a Word
Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score
of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling
of tashkeel, diverse fonts, and document layouts, alongside impressive
performance on low-resolution images. Further explorations (QARI v0.3) showcase
strong potential for structural document understanding and handwritten text.
This work delivers a marked improvement in Arabic OCR accuracy and efficiency,
with all models and datasets released to foster further research.