Qalam: Een Multimodale LLM voor Arabische Optische Tekens en Handschriftherkenning
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
July 18, 2024
Auteurs: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI
Samenvatting
Arabische Optical Character Recognition (OCR) en Handwriting Recognition (HWR)
vormen unieke uitdagingen vanwege de cursieve en contextgevoelige aard van het
Arabische schrift. Deze studie introduceert Qalam, een nieuw foundation model
ontworpen voor Arabische OCR en HWR, gebouwd op een SwinV2-encoder en RoBERTa-decoder
architectuur. Ons model presteert aanzienlijk beter dan bestaande methoden, met een
Word Error Rate (WER) van slechts 0,80% in HWR-taken en 1,18% in OCR-taken. We
trainen Qalam op een diverse dataset, waaronder meer dan 4,5 miljoen afbeeldingen van
Arabische manuscripten en een synthetische dataset bestaande uit 60k afbeelding-tekst
paren. Opmerkelijk is dat Qalam uitstekend omgaat met Arabische diakritische tekens, een
cruciaal kenmerk in Arabische geschriften. Bovendien toont het een opmerkelijke
vaardigheid om hoogwaardige invoer te verwerken, wat een veelvoorkomende beperking
in huidige OCR-systemen aanpakt. Deze vooruitgang benadrukt het potentieel van Qalam
als een toonaangevende oplossing voor Arabische schriftherkenning, wat een aanzienlijke
sprong in nauwkeurigheid en efficiëntie biedt.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR)
pose unique challenges due to the cursive and context-sensitive nature of the
Arabic script. This study introduces Qalam, a novel foundation model designed
for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder
architecture. Our model significantly outperforms existing methods, achieving a
Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We
train Qalam on a diverse dataset, including over 4.5 million images from Arabic
manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably,
Qalam demonstrates exceptional handling of Arabic diacritics, a critical
feature in Arabic scripts. Furthermore, it shows a remarkable ability to
process high-resolution inputs, addressing a common limitation in current OCR
systems. These advancements underscore Qalam's potential as a leading solution
for Arabic script recognition, offering a significant leap in accuracy and
efficiency.