ChatPaper.aiChatPaper

QARI-OCR: Riconoscimento di Testo Arabo ad Alta Fedeltà attraverso l'Adattamento di Modelli Linguistici Multimodali di Grandi Dimensioni

QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

June 2, 2025
Autori: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
cs.AI

Abstract

Le complessità intrinseche della scrittura araba; la sua natura corsiva, i segni diacritici (tashkeel) e la tipografia variegata, pongono sfide persistenti per il Riconoscimento Ottico dei Caratteri (OCR). Presentiamo Qari-OCR, una serie di modelli visione-linguaggio derivati da Qwen2-VL-2B-Instruct, progressivamente ottimizzati per l'arabo attraverso un affinamento iterativo su dataset sintetici specializzati. Il nostro modello principale, QARI v0.2, stabilisce un nuovo stato dell'arte open-source con un tasso di errore sulle parole (WER) di 0.160, un tasso di errore sui caratteri (CER) di 0.061 e un punteggio BLEU di 0.737 su testi ricchi di diacritici. Qari-OCR dimostra una gestione superiore dei tashkeel, dei font diversificati e dei layout dei documenti, insieme a prestazioni impressionanti su immagini a bassa risoluzione. Ulteriori esplorazioni (QARI v0.3) mostrano un forte potenziale per la comprensione strutturale dei documenti e del testo manoscritto. Questo lavoro offre un miglioramento significativo nell'accuratezza e nell'efficienza dell'OCR arabo, con tutti i modelli e i dataset rilasciati per favorire ulteriori ricerche.
English
The inherent complexities of Arabic script; its cursive nature, diacritical marks (tashkeel), and varied typography, pose persistent challenges for Optical Character Recognition (OCR). We present Qari-OCR, a series of vision-language models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic through iterative fine-tuning on specialized synthetic datasets. Our leading model, QARI v0.2, establishes a new open-source state-of-the-art with a Word Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling of tashkeel, diverse fonts, and document layouts, alongside impressive performance on low-resolution images. Further explorations (QARI v0.3) showcase strong potential for structural document understanding and handwritten text. This work delivers a marked improvement in Arabic OCR accuracy and efficiency, with all models and datasets released to foster further research.
PDF52June 4, 2025