ChatPaper.aiChatPaper

Qalam: Un LLM Multimodal para el Reconocimiento Óptico y de Escritura Manual del Árabe

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

July 18, 2024
Autores: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

Resumen

El Reconocimiento Óptico de Caracteres (OCR, por sus siglas en inglés) y el Reconocimiento de Escritura a Mano (HWR) en árabe plantean desafíos únicos debido a la naturaleza cursiva y sensible al contexto del alfabeto árabe. Este estudio presenta Qalam, un modelo base novedoso diseñado para OCR y HWR en árabe, construido sobre una arquitectura codificador SwinV2 y decodificador RoBERTa. Nuestro modelo supera significativamente a los métodos existentes, logrando una Tasa de Error de Palabras (WER) de solo 0.80% en tareas de HWR y 1.18% en tareas de OCR. Entrenamos Qalam en un conjunto de datos diverso, que incluye más de 4.5 millones de imágenes de manuscritos árabes y un conjunto de datos sintético que comprende 60k pares de imágenes y texto. Destacadamente, Qalam demuestra un manejo excepcional de los signos diacríticos árabes, una característica crítica en los alfabetos árabes. Además, muestra una notable capacidad para procesar entradas de alta resolución, abordando una limitación común en los sistemas de OCR actuales. Estos avances subrayan el potencial de Qalam como una solución líder para el reconocimiento de escritura árabe, ofreciendo un gran salto en precisión y eficiencia.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.

Summary

AI-Generated Summary

PDF1713November 28, 2024