Abstract—The rapid digitization of Arabic documents has created an urgent need for robust Optical Character Recognition (OCR) and document understanding systems tailored to the Arabic language. However, the development of such systems has been hindered by the lack of comprehensive benchmarks that encompass the diverse linguistic and stylistic variations found in Arabic texts. To address this gap, we introduce KITAB-Bench, a novel multi-domain benchmark designed to evaluate the performance of Arabic OCR and document understanding models across a wide range of genres, historical periods, and writing styles. KITAB-Bench includes a diverse collection of Arabic documents, spanning classical literature, modern publications, and handwritten manuscripts, along with meticulously curated ground truth annotations. We evaluate several state-of-the-art OCR and document understanding models on KITAB-Bench, highlighting their strengths and limitations. Our results demonstrate the challenges posed by the inherent complexity of Arabic script and the need for domain-specific adaptations in model design. KITAB-Bench aims to serve as a foundational resource for advancing research in Arabic OCR and document understanding, fostering the development of more accurate and versatile systems for processing Arabic texts. Keywords—Arabic OCR, document understanding, multi-domain benchmark, Arabic script, ground truth annotations KITAB-Bench: アラビア語OCRと文書理解のための包括的なマルチドメインベンチマーク 要約—アラビア語文書の急速なデジタル化に伴い、アラビア語に特化した堅牢な光学文字認識(OCR)および文書理解システムの必要性が高まっている。しかし、アラビア語テキストに見られる多様な言語的・文体的変異を網羅する包括的なベンチマークの不足が、その開発を妨げてきた。このギャップを埋めるため、我々はKITAB-Benchを提案する。これは、様々なジャンル、歴史的時代、書体にわたってアラビア語OCRおよび文書理解モデルの性能を評価するための新たなマルチドメインベンチマークである。KITAB-Benchは、古典文学、現代出版物、手書き原稿を含む多様なアラビア語文書のコレクションと、入念に作成された正解アノテーションを提供する。我々は、KITAB-Bench上でいくつかの最先端OCRおよび文書理解モデルを評価し、それらの強みと限界を明らかにした。その結果、アラビア文字の内在的な複雑さがもたらす課題と、モデル設計におけるドメイン固有の適応の必要性が示された。KITAB-Benchは、アラビア語OCRおよび文書理解の研究を推進し、アラビア語テキストを処理するためのより正確で汎用性の高いシステムの開発を促進する基盤リソースとなることを目指している。 キーワード—アラビア語OCR、文書理解、マルチドメインベンチマーク、アラビア文字、正解アノテーション
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
February 20, 2025
著者: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI
要旨
ドキュメント処理におけるRetrieval-Augmented Generation(RAG)の普及に伴い、知識抽出のための堅牢なテキスト認識がますます重要となっている。英語やその他の言語のOCR(光学文字認識)は、大規模なデータセットと確立されたベンチマークに支えられているが、アラビア語OCRは、その草書体、右から左へのテキストフロー、および複雑なタイポグラフィと書道の特徴により、独特の課題に直面している。本論文では、現在の評価システムのギャップを埋める包括的なアラビア語OCRベンチマークであるKITAB-Benchを提案する。このベンチマークは、9つの主要なドメインと36のサブドメインにわたる8,809のサンプルを含み、手書きテキスト、構造化された表、ビジネスインテリジェンスのための21種類のチャートを含む多様なドキュメントタイプを網羅している。我々の調査結果によると、現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチ(EasyOCR、PaddleOCR、Suryaなど)と比較して、文字誤り率(CER)において平均60%優れている。さらに、現在のアラビア語OCRモデルの重大な限界、特にPDFからMarkdownへの変換において、最良のモデルであるGemini-2.0-Flashが65%の精度しか達成できないことを明らかにした。これは、複雑なフォント、数字認識の誤り、単語の伸長、表構造の検出などの問題を含むアラビア語テキストの正確な認識における課題を浮き彫りにしている。本研究は、アラビア語ドキュメント分析手法の改善を促進し、英語OCR技術との性能差を埋めるための厳密な評価フレームワークを確立するものである。
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document
processing, robust text recognition has become increasingly critical for
knowledge extraction. While OCR (Optical Character Recognition) for English and
other languages benefits from large datasets and well-established benchmarks,
Arabic OCR faces unique challenges due to its cursive script, right-to-left
text flow, and complex typographic and calligraphic features. We present
KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in
current evaluation systems. Our benchmark comprises 8,809 samples across 9
major domains and 36 sub-domains, encompassing diverse document types including
handwritten text, structured tables, and specialized coverage of 21 chart types
for business intelligence. Our findings show that modern vision-language models
(such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like
EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate
(CER). Furthermore, we highlight significant limitations of current Arabic OCR
models, particularly in PDF-to-Markdown conversion, where the best model
Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in
accurately recognizing Arabic text, including issues with complex fonts,
numeral recognition errors, word elongation, and table structure detection.
This work establishes a rigorous evaluation framework that can drive
improvements in Arabic document analysis methods and bridge the performance gap
with English OCR technologies.Summary
AI-Generated Summary