Baseer: Een Vision-Language Model voor Arabisch Document-naar-Markdown OCR

Samenvatting

OCR voor Arabische documenten blijft een uitdagende taak vanwege het cursieve schrift, de diverse lettertypen, diakritische tekens en de rechts-naar-links oriëntatie van de taal. Hoewel moderne Multimodale Large Language Models (MLLMs) het documentbegrip voor talen met veel bronnen hebben verbeterd, blijft hun prestaties op Arabisch beperkt. In dit werk introduceren we Baseer, een vision-language model dat specifiek is afgestemd voor OCR van Arabische documenten. Door gebruik te maken van een grootschalige dataset die synthetische en real-world documenten combineert, wordt Baseer getraind met een decoder-only fine-tuning strategie om een vooraf getraind MLLM aan te passen terwijl algemene visuele kenmerken behouden blijven. We presenteren ook Misraj-DocOCR, een hoogwaardige, door experts geverifieerde benchmark ontworpen voor rigoureuze evaluatie van Arabische OCR-systemen. Onze experimenten tonen aan dat Baseer aanzienlijk beter presteert dan bestaande open-source en commerciële oplossingen, met een WER van 0.25 en daarmee een nieuwe state-of-the-art vestigt in het domein van OCR voor Arabische documenten. Onze resultaten benadrukken de voordelen van domeinspecifieke aanpassing van algemene MLLMs en leggen een sterke basis voor hoogwaardige OCR op morfologisch rijke talen zoals het Arabisch.

English

Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine- tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.

Baseer: Een Vision-Language Model voor Arabisch Document-naar-Markdown OCR

Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

Samenvatting

Support