ChatPaper.aiChatPaper

Qalam : Un modèle de langage multimodal pour la reconnaissance optique de caractères et de l'écriture manuscrite en arabe

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

July 18, 2024
Auteurs: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

Résumé

La reconnaissance optique de caractères (OCR) et la reconnaissance d'écriture manuscrite (HWR) pour l'arabe présentent des défis uniques en raison de la nature cursive et contextuelle de l'écriture arabe. Cette étude présente Qalam, un nouveau modèle de fond conçu pour l'OCR et la HWR en arabe, basé sur une architecture d'encodeur SwinV2 et de décodeur RoBERTa. Notre modèle surpasse significativement les méthodes existantes, atteignant un taux d'erreur sur les mots (WER) de seulement 0,80 % pour les tâches de HWR et de 1,18 % pour les tâches d'OCR. Nous avons entraîné Qalam sur un ensemble de données diversifié, comprenant plus de 4,5 millions d'images provenant de manuscrits arabes et un ensemble de données synthétiques composé de 60 000 paires image-texte. Notamment, Qalam démontre une gestion exceptionnelle des diacritiques arabes, une caractéristique cruciale dans les scripts arabes. De plus, il montre une capacité remarquable à traiter des entrées haute résolution, répondant ainsi à une limitation courante des systèmes OCR actuels. Ces avancées soulignent le potentiel de Qalam en tant que solution de pointe pour la reconnaissance des scripts arabes, offrant un bond significatif en termes de précision et d'efficacité.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.

Summary

AI-Generated Summary

PDF1713November 28, 2024