KITAB-Bench: Комплексный мультидоменный бенчмарк для арабского OCR и понимания документов
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
February 20, 2025
Авторы: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI
Аннотация
С ростом популярности подхода Retrieval-Augmented Generation (RAG) в обработке документов надежное распознавание текста становится все более важным для извлечения знаний. В то время как OCR (оптическое распознавание символов) для английского и других языков выигрывает от больших наборов данных и устоявшихся эталонов, арабский OCR сталкивается с уникальными сложностями из-за курсивного письма, направления текста справа налево, а также сложных типографских и каллиграфических особенностей. Мы представляем KITAB-Bench — всеобъемлющий эталон для арабского OCR, который устраняет пробелы в существующих системах оценки. Наш эталон включает 8 809 образцов из 9 основных областей и 36 подкатегорий, охватывая разнообразные типы документов, включая рукописный текст, структурированные таблицы и специализированные данные по 21 типу графиков для бизнес-аналитики. Наши результаты показывают, что современные модели, объединяющие зрение и язык (такие как GPT-4, Gemini и Qwen), превосходят традиционные подходы OCR (например, EasyOCR, PaddleOCR и Surya) в среднем на 60% по показателю Character Error Rate (CER). Кроме того, мы выявляем значительные ограничения современных моделей арабского OCR, особенно в преобразовании PDF в Markdown, где лучшая модель Gemini-2.0-Flash достигает точности всего 65%. Это подчеркивает сложности в точном распознавании арабского текста, включая проблемы со сложными шрифтами, ошибками распознавания цифр, удлинением слов и обнаружением структуры таблиц. Данная работа устанавливает строгую систему оценки, которая может способствовать улучшению методов анализа арабских документов и сократить разрыв в производительности с технологиями OCR для английского языка.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document
processing, robust text recognition has become increasingly critical for
knowledge extraction. While OCR (Optical Character Recognition) for English and
other languages benefits from large datasets and well-established benchmarks,
Arabic OCR faces unique challenges due to its cursive script, right-to-left
text flow, and complex typographic and calligraphic features. We present
KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in
current evaluation systems. Our benchmark comprises 8,809 samples across 9
major domains and 36 sub-domains, encompassing diverse document types including
handwritten text, structured tables, and specialized coverage of 21 chart types
for business intelligence. Our findings show that modern vision-language models
(such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like
EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate
(CER). Furthermore, we highlight significant limitations of current Arabic OCR
models, particularly in PDF-to-Markdown conversion, where the best model
Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in
accurately recognizing Arabic text, including issues with complex fonts,
numeral recognition errors, word elongation, and table structure detection.
This work establishes a rigorous evaluation framework that can drive
improvements in Arabic document analysis methods and bridge the performance gap
with English OCR technologies.Summary
AI-Generated Summary