ChatPaper.aiChatPaper

Qalam: Мультимодальная LLM для оптического распознавания арабских символов и почерка.

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

July 18, 2024
Авторы: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

Аннотация

Оптическое распознавание символов (OCR) и распознавание почерка (HWR) на арабском языке представляют уникальные вызовы из-за курсивного и контекстно-зависимого характера арабского письма. В данном исследовании представлен Qalam, новая базовая модель, разработанная для арабского OCR и HWR, построенная на кодировщике SwinV2 и декодере RoBERTa. Наша модель значительно превосходит существующие методы, достигая уровня ошибок слов (WER) всего лишь 0,80% в задачах HWR и 1,18% в задачах OCR. Мы обучаем Qalam на разнообразном наборе данных, включающем более 4,5 миллионов изображений из арабских рукописей и синтетический набор данных, состоящий из 60 тыс. пар изображение-текст. Следует отметить, что Qalam продемонстрировал исключительное управление арабскими диакритическими знаками, критической особенностью арабских письменностей. Более того, он проявляет замечательную способность обрабатывать изображения высокого разрешения, преодолевая распространенное ограничение в текущих системах OCR. Эти достижения подчеркивают потенциал Qalam в качестве ведущего решения для распознавания арабского письма, предлагая значительный скачок в точности и эффективности.
English
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.

Summary

AI-Generated Summary

PDF1713November 28, 2024