ChatPaper.aiChatPaper

Qalam: Un Modello Linguistico Multimodale per il Riconoscimento Ottico dei Caratteri e della Scrittura a Mano in Arabo

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

July 18, 2024
Autori: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

Abstract

Il riconoscimento ottico dei caratteri (OCR) e il riconoscimento della scrittura a mano (HWR) per l'arabo presentano sfide uniche a causa della natura corsiva e sensibile al contesto della scrittura araba. Questo studio introduce Qalam, un innovativo modello di base progettato per l'OCR e l'HWR dell'arabo, costruito su un'architettura con encoder SwinV2 e decoder RoBERTa. Il nostro modello supera significativamente i metodi esistenti, raggiungendo un tasso di errore sulle parole (WER) di appena lo 0,80% nelle attività di HWR e dell'1,18% nelle attività di OCR. Addestriamo Qalam su un dataset diversificato, che include oltre 4,5 milioni di immagini provenienti da manoscritti arabi e un dataset sintetico composto da 60k coppie immagine-testo. In particolare, Qalam dimostra una gestione eccezionale dei diacritici arabi, una caratteristica cruciale nella scrittura araba. Inoltre, mostra una notevole capacità di elaborare input ad alta risoluzione, affrontando una limitazione comune nei sistemi OCR attuali. Questi progressi sottolineano il potenziale di Qalam come soluzione leader per il riconoscimento della scrittura araba, offrendo un significativo salto in avanti in termini di precisione ed efficienza.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.
PDF1813November 28, 2024