Qalam : Un modèle de langage multimodal pour la reconnaissance optique de caractères et de l'écriture manuscrite en arabe
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
July 18, 2024
Auteurs: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI
Résumé
La reconnaissance optique de caractères (OCR) et la reconnaissance d'écriture manuscrite (HWR) pour l'arabe présentent des défis uniques en raison de la nature cursive et contextuelle de l'écriture arabe. Cette étude présente Qalam, un nouveau modèle de fond conçu pour l'OCR et la HWR en arabe, basé sur une architecture d'encodeur SwinV2 et de décodeur RoBERTa. Notre modèle surpasse significativement les méthodes existantes, atteignant un taux d'erreur sur les mots (WER) de seulement 0,80 % pour les tâches de HWR et de 1,18 % pour les tâches d'OCR. Nous avons entraîné Qalam sur un ensemble de données diversifié, comprenant plus de 4,5 millions d'images provenant de manuscrits arabes et un ensemble de données synthétiques composé de 60 000 paires image-texte. Notamment, Qalam démontre une gestion exceptionnelle des diacritiques arabes, une caractéristique cruciale dans les scripts arabes. De plus, il montre une capacité remarquable à traiter des entrées haute résolution, répondant ainsi à une limitation courante des systèmes OCR actuels. Ces avancées soulignent le potentiel de Qalam en tant que solution de pointe pour la reconnaissance des scripts arabes, offrant un bond significatif en termes de précision et d'efficacité.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR)
pose unique challenges due to the cursive and context-sensitive nature of the
Arabic script. This study introduces Qalam, a novel foundation model designed
for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder
architecture. Our model significantly outperforms existing methods, achieving a
Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We
train Qalam on a diverse dataset, including over 4.5 million images from Arabic
manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably,
Qalam demonstrates exceptional handling of Arabic diacritics, a critical
feature in Arabic scripts. Furthermore, it shows a remarkable ability to
process high-resolution inputs, addressing a common limitation in current OCR
systems. These advancements underscore Qalam's potential as a leading solution
for Arabic script recognition, offering a significant leap in accuracy and
efficiency.Summary
AI-Generated Summary