Abstract—The rapid digitization of Arabic documents has created an urgent need for robust Optical Character Recognition (OCR) and document understanding systems tailored to the Arabic language. However, the development of such systems has been hindered by the lack of comprehensive benchmarks that encompass the diverse linguistic and stylistic variations found in Arabic texts. To address this gap, we introduce KITAB-Bench, a novel multi-domain benchmark designed to evaluate the performance of Arabic OCR and document understanding models across a wide range of genres, historical periods, and writing styles. KITAB-Bench includes a diverse collection of Arabic documents, spanning classical literature, modern publications, and handwritten manuscripts, along with meticulously curated ground truth annotations. We evaluate several state-of-the-art OCR and document understanding models on KITAB-Bench, highlighting their strengths and limitations. Our results demonstrate the challenges posed by the inherent complexity of Arabic script and the need for domain-specific adaptations in model design. KITAB-Bench aims to serve as a foundational resource for advancing research in Arabic OCR and document understanding, fostering the development of more accurate and versatile systems for processing Arabic texts.
Keywords—Arabic OCR, document understanding, multi-domain benchmark, Arabic script, ground truth annotations
KITAB-Bench: アラビア語OCRと文書理解のための包括的なマルチドメインベンチマーク
要約—アラビア語文書の急速なデジタル化に伴い、アラビア語に特化した堅牢な光学文字認識(OCR)および文書理解システムの必要性が高まっている。しかし、アラビア語テキストに見られる多様な言語的・文体的変異を網羅する包括的なベンチマークの不足が、その開発を妨げてきた。このギャップを埋めるため、我々はKITAB-Benchを提案する。これは、様々なジャンル、歴史的時代、書体にわたってアラビア語OCRおよび文書理解モデルの性能を評価するための新たなマルチドメインベンチマークである。KITAB-Benchは、古典文学、現代出版物、手書き原稿を含む多様なアラビア語文書のコレクションと、入念に作成された正解アノテーションを提供する。我々は、KITAB-Bench上でいくつかの最先端OCRおよび文書理解モデルを評価し、それらの強みと限界を明らかにした。その結果、アラビア文字の内在的な複雑さがもたらす課題と、モデル設計におけるドメイン固有の適応の必要性が示された。KITAB-Benchは、アラビア語OCRおよび文書理解の研究を推進し、アラビア語テキストを処理するためのより正確で汎用性の高いシステムの開発を促進する基盤リソースとなることを目指している。
キーワード—アラビア語OCR、文書理解、マルチドメインベンチマーク、アラビア文字、正解アノテーション
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and
Document Understanding