Baseer: Um Modelo de Visão e Linguagem para OCR de Documentos Árabes para Markdown

Resumo

A OCR de documentos em árabe continua sendo uma tarefa desafiadora devido à escrita cursiva da língua, às diversas fontes, aos diacríticos e à orientação da direita para a esquerda. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) modernos tenham avançado na compreensão de documentos para idiomas de alta disponibilidade de recursos, seu desempenho no árabe ainda é limitado. Neste trabalho, apresentamos o Baseer, um modelo de visão e linguagem ajustado especificamente para OCR de documentos em árabe. Utilizando um conjunto de dados em larga escala que combina documentos sintéticos e do mundo real, o Baseer é treinado com uma estratégia de ajuste fino apenas do decodificador para adaptar um MLLM pré-treinado, preservando as características visuais gerais. Também apresentamos o Misraj-DocOCR, um benchmark de alta qualidade verificado por especialistas, projetado para avaliação rigorosa de sistemas de OCR em árabe. Nossos experimentos mostram que o Baseer supera significativamente as soluções de código aberto e comerciais existentes, alcançando uma Taxa de Erro de Palavras (WER) de 0,25 e estabelecendo um novo estado da arte no domínio da OCR de documentos em árabe. Nossos resultados destacam os benefícios da adaptação específica de domínio de MLLMs de propósito geral e estabelecem uma base sólida para OCR de alta precisão em idiomas morfologicamente ricos, como o árabe.

English

Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine- tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.

Baseer: Um Modelo de Visão e Linguagem para OCR de Documentos Árabes para Markdown

Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

Resumo

Support