ChatPaper.aiChatPaper

Baseer: Un Modello Visione-Linguaggio per OCR da Documento a Markdown in Arabo

Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

September 17, 2025
Autori: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI

Abstract

L'OCR per documenti in arabo rimane un compito impegnativo a causa della scrittura corsiva della lingua, dei caratteri tipografici vari, dei segni diacritici e dell'orientamento da destra a sinistra. Sebbene i moderni Modelli Linguistici Multimodali (MLLM) abbiano fatto progressi nella comprensione dei documenti per le lingue ad alta risorsa, le loro prestazioni sull'arabo rimangono limitate. In questo lavoro, presentiamo Baseer, un modello visione-linguaggio fine-tuned specificamente per l'OCR di documenti in arabo. Sfruttando un ampio dataset che combina documenti sintetici e del mondo reale, Baseer viene addestrato utilizzando una strategia di fine-tuning decoder-only per adattare un MLLM pre-addestrato preservando le caratteristiche visive generali. Presentiamo inoltre Misraj-DocOCR, un benchmark di alta qualità verificato da esperti, progettato per una valutazione rigorosa dei sistemi OCR per l'arabo. I nostri esperimenti dimostrano che Baseer supera significativamente le soluzioni open-source e commerciali esistenti, raggiungendo un WER di 0,25 e stabilendo un nuovo stato dell'arte nel campo dell'OCR per documenti in arabo. I nostri risultati evidenziano i vantaggi dell'adattamento specifico per dominio di MLLM generici e stabiliscono una solida baseline per un OCR ad alta precisione su lingue morfologicamente ricche come l'arabo.
English
Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine- tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.
PDF1249September 24, 2025