ChatPaper.aiChatPaper

Qalam: Een Multimodale LLM voor Arabische Optische Tekens en Handschriftherkenning

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

July 18, 2024
Auteurs: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

Samenvatting

Arabische Optical Character Recognition (OCR) en Handwriting Recognition (HWR) vormen unieke uitdagingen vanwege de cursieve en contextgevoelige aard van het Arabische schrift. Deze studie introduceert Qalam, een nieuw foundation model ontworpen voor Arabische OCR en HWR, gebouwd op een SwinV2-encoder en RoBERTa-decoder architectuur. Ons model presteert aanzienlijk beter dan bestaande methoden, met een Word Error Rate (WER) van slechts 0,80% in HWR-taken en 1,18% in OCR-taken. We trainen Qalam op een diverse dataset, waaronder meer dan 4,5 miljoen afbeeldingen van Arabische manuscripten en een synthetische dataset bestaande uit 60k afbeelding-tekst paren. Opmerkelijk is dat Qalam uitstekend omgaat met Arabische diakritische tekens, een cruciaal kenmerk in Arabische geschriften. Bovendien toont het een opmerkelijke vaardigheid om hoogwaardige invoer te verwerken, wat een veelvoorkomende beperking in huidige OCR-systemen aanpakt. Deze vooruitgang benadrukt het potentieel van Qalam als een toonaangevende oplossing voor Arabische schriftherkenning, wat een aanzienlijke sprong in nauwkeurigheid en efficiëntie biedt.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.
PDF2013November 28, 2024