Baseer: Um Modelo de Visão e Linguagem para OCR de Documentos Árabes para Markdown
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
Autores: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Resumo
A OCR de documentos em árabe continua sendo uma tarefa desafiadora devido à escrita cursiva da língua, às diversas fontes, aos diacríticos e à orientação da direita para a esquerda. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) modernos tenham avançado na compreensão de documentos para idiomas de alta disponibilidade de recursos, seu desempenho no árabe ainda é limitado. Neste trabalho, apresentamos o Baseer, um modelo de visão e linguagem ajustado especificamente para OCR de documentos em árabe. Utilizando um conjunto de dados em larga escala que combina documentos sintéticos e do mundo real, o Baseer é treinado com uma estratégia de ajuste fino apenas do decodificador para adaptar um MLLM pré-treinado, preservando as características visuais gerais. Também apresentamos o Misraj-DocOCR, um benchmark de alta qualidade verificado por especialistas, projetado para avaliação rigorosa de sistemas de OCR em árabe. Nossos experimentos mostram que o Baseer supera significativamente as soluções de código aberto e comerciais existentes, alcançando uma Taxa de Erro de Palavras (WER) de 0,25 e estabelecendo um novo estado da arte no domínio da OCR de documentos em árabe. Nossos resultados destacam os benefícios da adaptação específica de domínio de MLLMs de propósito geral e estabelecem uma base sólida para OCR de alta precisão em idiomas morfologicamente ricos, como o árabe.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.