QARI-OCR: Reconocimiento de Texto Árabe de Alta Fidelidad mediante Adaptación de Modelos de Lenguaje Multimodales de Gran Escala

Resumen

Las complejidades inherentes de la escritura árabe; su naturaleza cursiva, los signos diacríticos (tashkeel) y la tipografía variada, plantean desafíos persistentes para el Reconocimiento Óptico de Caracteres (OCR). Presentamos Qari-OCR, una serie de modelos de visión-lenguaje derivados de Qwen2-VL-2B-Instruct, optimizados progresivamente para el árabe mediante ajustes iterativos en conjuntos de datos sintéticos especializados. Nuestro modelo líder, QARI v0.2, establece un nuevo estado del arte de código abierto con una Tasa de Error de Palabra (WER) de 0.160, una Tasa de Error de Carácter (CER) de 0.061 y una puntuación BLEU de 0.737 en textos ricos en diacríticos. Qari-OCR demuestra un manejo superior de tashkeel, diversas fuentes y diseños de documentos, junto con un rendimiento impresionante en imágenes de baja resolución. Exploraciones adicionales (QARI v0.3) muestran un fuerte potencial para la comprensión estructural de documentos y el texto manuscrito. Este trabajo ofrece una mejora notable en la precisión y eficiencia del OCR en árabe, con todos los modelos y conjuntos de datos liberados para fomentar investigaciones futuras.

English

The inherent complexities of Arabic script; its cursive nature, diacritical marks (tashkeel), and varied typography, pose persistent challenges for Optical Character Recognition (OCR). We present Qari-OCR, a series of vision-language models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic through iterative fine-tuning on specialized synthetic datasets. Our leading model, QARI v0.2, establishes a new open-source state-of-the-art with a Word Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling of tashkeel, diverse fonts, and document layouts, alongside impressive performance on low-resolution images. Further explorations (QARI v0.3) showcase strong potential for structural document understanding and handwritten text. This work delivers a marked improvement in Arabic OCR accuracy and efficiency, with all models and datasets released to foster further research.