ChatPaper.aiChatPaper

QARI-OCR: Reconocimiento de Texto Árabe de Alta Fidelidad mediante Adaptación de Modelos de Lenguaje Multimodales de Gran Escala

QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

June 2, 2025
Autores: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI

Resumen

Las complejidades inherentes de la escritura árabe; su naturaleza cursiva, los signos diacríticos (tashkeel) y la tipografía variada, plantean desafíos persistentes para el Reconocimiento Óptico de Caracteres (OCR). Presentamos Qari-OCR, una serie de modelos de visión-lenguaje derivados de Qwen2-VL-2B-Instruct, optimizados progresivamente para el árabe mediante ajustes iterativos en conjuntos de datos sintéticos especializados. Nuestro modelo líder, QARI v0.2, establece un nuevo estado del arte de código abierto con una Tasa de Error de Palabra (WER) de 0.160, una Tasa de Error de Carácter (CER) de 0.061 y una puntuación BLEU de 0.737 en textos ricos en diacríticos. Qari-OCR demuestra un manejo superior de tashkeel, diversas fuentes y diseños de documentos, junto con un rendimiento impresionante en imágenes de baja resolución. Exploraciones adicionales (QARI v0.3) muestran un fuerte potencial para la comprensión estructural de documentos y el texto manuscrito. Este trabajo ofrece una mejora notable en la precisión y eficiencia del OCR en árabe, con todos los modelos y conjuntos de datos liberados para fomentar investigaciones futuras.
English
The inherent complexities of Arabic script; its cursive nature, diacritical marks (tashkeel), and varied typography, pose persistent challenges for Optical Character Recognition (OCR). We present Qari-OCR, a series of vision-language models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic through iterative fine-tuning on specialized synthetic datasets. Our leading model, QARI v0.2, establishes a new open-source state-of-the-art with a Word Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling of tashkeel, diverse fonts, and document layouts, alongside impressive performance on low-resolution images. Further explorations (QARI v0.3) showcase strong potential for structural document understanding and handwritten text. This work delivers a marked improvement in Arabic OCR accuracy and efficiency, with all models and datasets released to foster further research.
PDF22June 4, 2025