Baseer: Un modelo de visión y lenguaje para OCR de documentos árabes a Markdown
Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
September 17, 2025
Autores: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Resumen
El reconocimiento óptico de caracteres (OCR) en documentos árabes sigue siendo una tarea desafiante debido a la escritura cursiva del idioma, la diversidad de fuentes, los diacríticos y la orientación de derecha a izquierda. Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) modernos han avanzado en la comprensión de documentos para idiomas con muchos recursos, su rendimiento en árabe sigue siendo limitado. En este trabajo, presentamos Baseer, un modelo de visión y lenguaje ajustado específicamente para OCR en documentos árabes. Aprovechando un conjunto de datos a gran escala que combina documentos sintéticos y del mundo real, Baseer se entrena utilizando una estrategia de ajuste fino de solo decodificador para adaptar un MLLM preentrenado mientras se preservan las características visuales generales. También presentamos Misraj-DocOCR, un punto de referencia de alta calidad verificado por expertos diseñado para la evaluación rigurosa de sistemas de OCR en árabe. Nuestros experimentos muestran que Baseer supera significativamente las soluciones existentes de código abierto y comerciales, logrando un WER de 0.25 y estableciendo un nuevo estado del arte en el dominio del OCR para documentos árabes. Nuestros resultados destacan los beneficios de la adaptación específica del dominio de MLLMs de propósito general y establecen una base sólida para OCR de alta precisión en idiomas morfológicamente ricos como el árabe.
English
Arabic document OCR remains a challenging task due to the language's cursive
script, diverse fonts, diacritics, and right-to-left orientation. While modern
Multimodal Large Language Models (MLLMs) have advanced document understanding
for high-resource languages, their performance on Arabic remains limited. In
this work, we introduce Baseer, a vision-language model fine- tuned
specifically for Arabic document OCR. Leveraging a large-scale dataset
combining synthetic and real-world documents, Baseer is trained using a
decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving
general visual features. We also present Misraj-DocOCR, a high-quality,
expert-verified benchmark designed for rigorous evaluation of Arabic OCR
systems. Our experiments show that Baseer significantly outperforms existing
open-source and commercial solutions, achieving a WER of 0.25 and establishing
a new state-of-the-art in the domain of Arabic document OCR. Our results
highlight the benefits of domain-specific adaptation of general-purpose MLLMs
and establish a strong baseline for high-accuracy OCR on morphologically rich
languages like Arabic.