Baseer: Un Modello Visione-Linguaggio per OCR da Documento a Markdown in Arabo

Abstract

L'OCR per documenti in arabo rimane un compito impegnativo a causa della scrittura corsiva della lingua, dei caratteri tipografici vari, dei segni diacritici e dell'orientamento da destra a sinistra. Sebbene i moderni Modelli Linguistici Multimodali (MLLM) abbiano fatto progressi nella comprensione dei documenti per le lingue ad alta risorsa, le loro prestazioni sull'arabo rimangono limitate. In questo lavoro, presentiamo Baseer, un modello visione-linguaggio fine-tuned specificamente per l'OCR di documenti in arabo. Sfruttando un ampio dataset che combina documenti sintetici e del mondo reale, Baseer viene addestrato utilizzando una strategia di fine-tuning decoder-only per adattare un MLLM pre-addestrato preservando le caratteristiche visive generali. Presentiamo inoltre Misraj-DocOCR, un benchmark di alta qualità verificato da esperti, progettato per una valutazione rigorosa dei sistemi OCR per l'arabo. I nostri esperimenti dimostrano che Baseer supera significativamente le soluzioni open-source e commerciali esistenti, raggiungendo un WER di 0,25 e stabilendo un nuovo stato dell'arte nel campo dell'OCR per documenti in arabo. I nostri risultati evidenziano i vantaggi dell'adattamento specifico per dominio di MLLM generici e stabiliscono una solida baseline per un OCR ad alta precisione su lingue morfologicamente ricche come l'arabo.

English

Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine- tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.

Baseer: Un Modello Visione-Linguaggio per OCR da Documento a Markdown in Arabo

Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

Abstract

Support