QARI-OCR: Reconhecimento de Texto em Árabe de Alta Fidelidade por meio de Adaptação de Modelos de Linguagem Multimodais de Grande Escala
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
June 2, 2025
Autores: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI
Resumo
As complexidades inerentes da escrita árabe; sua natureza cursiva, marcas diacríticas (tashkeel) e tipografia variada, apresentam desafios persistentes para o Reconhecimento Óptico de Caracteres (OCR). Apresentamos o Qari-OCR, uma série de modelos de visão e linguagem derivados do Qwen2-VL-2B-Instruct, progressivamente otimizados para o árabe por meio de ajustes finos iterativos em conjuntos de dados sintéticos especializados. Nosso modelo principal, QARI v0.2, estabelece um novo estado da arte em código aberto com uma Taxa de Erro de Palavra (WER) de 0,160, Taxa de Erro de Caractere (CER) de 0,061 e pontuação BLEU de 0,737 em textos ricos em diacríticos. O Qari-OCR demonstra um tratamento superior de tashkeel, fontes diversas e layouts de documentos, além de um desempenho impressionante em imagens de baixa resolução. Explorações adicionais (QARI v0.3) mostram um forte potencial para a compreensão estrutural de documentos e textos manuscritos. Este trabalho oferece uma melhoria significativa na precisão e eficiência do OCR árabe, com todos os modelos e conjuntos de dados liberados para promover pesquisas futuras.
English
The inherent complexities of Arabic script; its cursive nature, diacritical
marks (tashkeel), and varied typography, pose persistent challenges for Optical
Character Recognition (OCR). We present Qari-OCR, a series of vision-language
models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic
through iterative fine-tuning on specialized synthetic datasets. Our leading
model, QARI v0.2, establishes a new open-source state-of-the-art with a Word
Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score
of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling
of tashkeel, diverse fonts, and document layouts, alongside impressive
performance on low-resolution images. Further explorations (QARI v0.3) showcase
strong potential for structural document understanding and handwritten text.
This work delivers a marked improvement in Arabic OCR accuracy and efficiency,
with all models and datasets released to foster further research.