QARI-OCR: Reconocimiento de Texto Árabe de Alta Fidelidad mediante Adaptación de Modelos de Lenguaje Multimodales de Gran Escala
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
June 2, 2025
Autores: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI
Resumen
Las complejidades inherentes de la escritura árabe; su naturaleza cursiva, los signos diacríticos (tashkeel) y la tipografía variada, plantean desafíos persistentes para el Reconocimiento Óptico de Caracteres (OCR). Presentamos Qari-OCR, una serie de modelos de visión-lenguaje derivados de Qwen2-VL-2B-Instruct, optimizados progresivamente para el árabe mediante ajustes iterativos en conjuntos de datos sintéticos especializados. Nuestro modelo líder, QARI v0.2, establece un nuevo estado del arte de código abierto con una Tasa de Error de Palabra (WER) de 0.160, una Tasa de Error de Carácter (CER) de 0.061 y una puntuación BLEU de 0.737 en textos ricos en diacríticos. Qari-OCR demuestra un manejo superior de tashkeel, diversas fuentes y diseños de documentos, junto con un rendimiento impresionante en imágenes de baja resolución. Exploraciones adicionales (QARI v0.3) muestran un fuerte potencial para la comprensión estructural de documentos y el texto manuscrito. Este trabajo ofrece una mejora notable en la precisión y eficiencia del OCR en árabe, con todos los modelos y conjuntos de datos liberados para fomentar investigaciones futuras.
English
The inherent complexities of Arabic script; its cursive nature, diacritical
marks (tashkeel), and varied typography, pose persistent challenges for Optical
Character Recognition (OCR). We present Qari-OCR, a series of vision-language
models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic
through iterative fine-tuning on specialized synthetic datasets. Our leading
model, QARI v0.2, establishes a new open-source state-of-the-art with a Word
Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score
of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling
of tashkeel, diverse fonts, and document layouts, alongside impressive
performance on low-resolution images. Further explorations (QARI v0.3) showcase
strong potential for structural document understanding and handwritten text.
This work delivers a marked improvement in Arabic OCR accuracy and efficiency,
with all models and datasets released to foster further research.