ChatPaper.aiChatPaper

Qalam:アラビア文字光学文字認識と手書き認識のためのマルチモーダル大規模言語モデル

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

July 18, 2024
著者: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

要旨

アラビア語の光学文字認識(OCR)および手書き文字認識(HWR)は、アラビア文字の筆記体特性や文脈依存性により、独特の課題を抱えています。本研究では、SwinV2エンコーダーとRoBERTaデコーダーアーキテクチャを基盤とした、アラビア語OCRおよびHWRのための新しい基盤モデル「Qalam」を紹介します。本モデルは既存の手法を大幅に上回り、HWRタスクではわずか0.80%、OCRタスクでは1.18%の単語誤り率(WER)を達成しました。Qalamは、アラビア語写本からの450万枚以上の画像と、6万組の画像-テキストペアからなる合成データセットを含む多様なデータセットで学習されています。特に、Qalamはアラビア文字の重要な特徴である発音記号(ディアクリティック)の処理に優れた能力を示しています。さらに、現在のOCRシステムで一般的な制約である高解像度入力の処理においても顕著な能力を発揮します。これらの進歩は、Qalamがアラビア文字認識における主要なソリューションとして、精度と効率の面で大きな飛躍を提供する可能性を示しています。
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.

Summary

AI-Generated Summary

PDF1713November 28, 2024