Qalam: 아랍어 광학 문자 및 필기체 인식을 위한 멀티모달 대형 언어 모델
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
July 18, 2024
저자: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI
초록
아랍어 광학 문자 인식(OCR)과 필기체 인식(HWR)은 아랍어 문자의 필기체 특성과 문맥 의존성으로 인해 독특한 도전 과제를 제시합니다. 본 연구에서는 SwinV2 인코더와 RoBERTa 디코더 아키텍처를 기반으로 설계된 아랍어 OCR 및 HWR을 위한 새로운 파운데이션 모델인 Qalam을 소개합니다. 우리의 모델은 기존 방법들을 크게 능가하며, HWR 작업에서 단어 오류율(WER) 0.80%, OCR 작업에서 1.18%를 달성했습니다. Qalam은 아랍어 필사본에서 추출한 450만 장 이상의 이미지와 6만 개의 이미지-텍스트 쌍으로 구성된 합성 데이터셋을 포함한 다양한 데이터셋으로 학습되었습니다. 특히, Qalam은 아랍어 스크립트에서 중요한 기능인 아랍어 발음 구별 기호를 탁월하게 처리하는 능력을 보여줍니다. 또한, 현재 OCR 시스템의 일반적인 한계인 고해상도 입력 처리 능력에서도 뛰어난 성능을 보입니다. 이러한 발전은 Qalam이 아랍어 스크립트 인식 분야에서 정확성과 효율성 측면에서 큰 도약을 이루며 선도적인 솔루션으로서의 잠재력을 강조합니다.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR)
pose unique challenges due to the cursive and context-sensitive nature of the
Arabic script. This study introduces Qalam, a novel foundation model designed
for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder
architecture. Our model significantly outperforms existing methods, achieving a
Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We
train Qalam on a diverse dataset, including over 4.5 million images from Arabic
manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably,
Qalam demonstrates exceptional handling of Arabic diacritics, a critical
feature in Arabic scripts. Furthermore, it shows a remarkable ability to
process high-resolution inputs, addressing a common limitation in current OCR
systems. These advancements underscore Qalam's potential as a leading solution
for Arabic script recognition, offering a significant leap in accuracy and
efficiency.Summary
AI-Generated Summary