ChatPaper.aiChatPaper

Qalam: Ein multimodales LLM für die optische Zeichenerkennung und Handschrifterkennung des Arabischen.

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

July 18, 2024
Autoren: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

Zusammenfassung

Die optische Zeichenerkennung (OCR) und Handschrifterkennung (HWR) des Arabischen stellen aufgrund der kursorischen und kontextsensitiven Natur des arabischen Skripts einzigartige Herausforderungen dar. Diese Studie stellt Qalam vor, ein neuartiges Grundlagenmodell, das für die arabische OCR und HWR entwickelt wurde und auf einer SwinV2-Encoder- und RoBERTa-Decoder-Architektur basiert. Unser Modell übertrifft signifikant bestehende Methoden und erreicht eine Wortfehlerrate (WER) von nur 0,80% bei HWR-Aufgaben und 1,18% bei OCR-Aufgaben. Wir trainieren Qalam auf einem vielfältigen Datensatz, der über 4,5 Millionen Bilder aus arabischen Manuskripten und einen synthetischen Datensatz mit 60.000 Bild-Text-Paaren umfasst. Besonders bemerkenswert ist die außergewöhnliche Handhabung von arabischen Diakritika durch Qalam, eine entscheidende Eigenschaft in arabischen Skripts. Darüber hinaus zeigt es eine bemerkenswerte Fähigkeit zur Verarbeitung von hochauflösenden Eingaben, was eine häufige Einschränkung in aktuellen OCR-Systemen angeht. Diese Fortschritte unterstreichen das Potenzial von Qalam als führende Lösung für die Erkennung des arabischen Skripts und bieten einen signifikanten Sprung in Genauigkeit und Effizienz.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.

Summary

AI-Generated Summary

PDF1713November 28, 2024