Qalam: Um LLM Multimodal para Reconhecimento de Caracteres Ópticos e Manuscritos em Árabe.
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
July 18, 2024
Autores: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI
Resumo
O Reconhecimento Óptico de Caracteres Árabes (OCR) e o Reconhecimento de Escrita à Mão (HWR) apresentam desafios únicos devido à natureza cursiva e sensível ao contexto do script árabe. Este estudo apresenta o Qalam, um modelo de base inovador projetado para OCR e HWR em árabe, construído com um codificador SwinV2 e uma arquitetura decodificadora RoBERTa. Nosso modelo supera significativamente os métodos existentes, alcançando uma Taxa de Erro de Palavras (WER) de apenas 0,80% em tarefas de HWR e 1,18% em tarefas de OCR. Treinamos o Qalam em um conjunto de dados diversificado, incluindo mais de 4,5 milhões de imagens de manuscritos árabes e um conjunto de dados sintético composto por 60 mil pares de imagem-texto. Notavelmente, o Qalam demonstra um manuseio excepcional de diacríticos árabes, uma característica crítica nos scripts árabes. Além disso, ele mostra uma notável capacidade de processar entradas de alta resolução, abordando uma limitação comum nos sistemas OCR atuais. Esses avanços destacam o potencial do Qalam como uma solução líder para o reconhecimento de scripts árabes, oferecendo um salto significativo em precisão e eficiência.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR)
pose unique challenges due to the cursive and context-sensitive nature of the
Arabic script. This study introduces Qalam, a novel foundation model designed
for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder
architecture. Our model significantly outperforms existing methods, achieving a
Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We
train Qalam on a diverse dataset, including over 4.5 million images from Arabic
manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably,
Qalam demonstrates exceptional handling of Arabic diacritics, a critical
feature in Arabic scripts. Furthermore, it shows a remarkable ability to
process high-resolution inputs, addressing a common limitation in current OCR
systems. These advancements underscore Qalam's potential as a leading solution
for Arabic script recognition, offering a significant leap in accuracy and
efficiency.