KITAB-Bench: Een Uitgebreide Multi-Domein Benchmark voor Arabische OCR en Documentbegrip
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
February 20, 2025
Auteurs: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI
Samenvatting
Met de groeiende adoptie van Retrieval-Augmented Generation (RAG) in documentverwerking is robuuste tekstherkenning steeds kritischer geworden voor kennis extractie. Hoewel OCR (Optical Character Recognition) voor Engels en andere talen profiteert van grote datasets en goed ingeburgerde benchmarks, wordt Arabische OCR geconfronteerd met unieke uitdagingen vanwege het cursieve schrift, de tekststroom van rechts naar links, en complexe typografische en kalligrafische kenmerken. Wij presenteren KITAB-Bench, een uitgebreide Arabische OCR-benchmark die de lacunes in huidige evaluatiesystemen opvult. Onze benchmark bestaat uit 8.809 samples verdeeld over 9 belangrijke domeinen en 36 subdomeinen, en omvat diverse documenttypen, waaronder handgeschreven tekst, gestructureerde tabellen, en gespecialiseerde dekking van 21 grafiektypen voor business intelligence. Onze bevindingen tonen aan dat moderne visie-taalmodellen (zoals GPT-4, Gemini en Qwen) traditionele OCR-benaderingen (zoals EasyOCR, PaddleOCR en Surya) gemiddeld met 60% overtreffen in Character Error Rate (CER). Bovendien belichten we significante beperkingen van huidige Arabische OCR-modellen, met name in PDF-naar-Markdown-conversie, waar het beste model Gemini-2.0-Flash slechts 65% nauwkeurigheid behaalt. Dit onderstreept de uitdagingen bij het nauwkeurig herkennen van Arabische tekst, waaronder problemen met complexe lettertypen, fouten in cijferherkenning, woordverlenging en detectie van tabelstructuren. Dit werk stelt een rigoureus evaluatiekader vast dat verbeteringen in Arabische documentanalysemethoden kan aansturen en de prestatiekloof met Engelse OCR-technologieën kan overbruggen.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document
processing, robust text recognition has become increasingly critical for
knowledge extraction. While OCR (Optical Character Recognition) for English and
other languages benefits from large datasets and well-established benchmarks,
Arabic OCR faces unique challenges due to its cursive script, right-to-left
text flow, and complex typographic and calligraphic features. We present
KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in
current evaluation systems. Our benchmark comprises 8,809 samples across 9
major domains and 36 sub-domains, encompassing diverse document types including
handwritten text, structured tables, and specialized coverage of 21 chart types
for business intelligence. Our findings show that modern vision-language models
(such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like
EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate
(CER). Furthermore, we highlight significant limitations of current Arabic OCR
models, particularly in PDF-to-Markdown conversion, where the best model
Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in
accurately recognizing Arabic text, including issues with complex fonts,
numeral recognition errors, word elongation, and table structure detection.
This work establishes a rigorous evaluation framework that can drive
improvements in Arabic document analysis methods and bridge the performance gap
with English OCR technologies.Summary
AI-Generated Summary