KITAB-Bench: Ein umfassender Multi-Domain-Benchmark für arabische OCR und Dokumentenverständnis
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
February 20, 2025
Autoren: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI
Zusammenfassung
Mit der zunehmenden Verbreitung von Retrieval-Augmented Generation (RAG) in der Dokumentenverarbeitung ist eine robuste Texterkennung für die Wissensextraktion immer entscheidender geworden. Während OCR (Optische Zeichenerkennung) für Englisch und andere Sprachen von großen Datensätzen und etablierten Benchmarks profitiert, steht die arabische OCR aufgrund ihrer kursiven Schrift, des rechtsläufigen Textflusses und der komplexen typografischen und kalligrafischen Merkmale vor einzigartigen Herausforderungen. Wir stellen KITAB-Bench vor, einen umfassenden Benchmark für arabische OCR, der die Lücken in den aktuellen Evaluierungssystemen schließt. Unser Benchmark umfasst 8.809 Proben aus 9 Hauptdomänen und 36 Unterdomänen, die verschiedene Dokumenttypen wie handschriftlichen Text, strukturierte Tabellen und spezialisierte Abdeckungen von 21 Diagrammtypen für Business Intelligence beinhalten. Unsere Ergebnisse zeigen, dass moderne Vision-Language-Modelle (wie GPT-4, Gemini und Qwen) traditionelle OCR-Ansätze (wie EasyOCR, PaddleOCR und Surya) im Durchschnitt um 60 % im Character Error Rate (CER) übertreffen. Darüber hinaus verdeutlichen wir erhebliche Einschränkungen aktueller arabischer OCR-Modelle, insbesondere bei der PDF-zu-Markdown-Konvertierung, bei der das beste Modell Gemini-2.0-Flash nur eine Genauigkeit von 65 % erreicht. Dies unterstreicht die Herausforderungen bei der präzisen Erkennung arabischer Texte, einschließlich Problemen mit komplexen Schriftarten, Ziffernerkennungsfehlern, Wortdehnungen und der Erkennung von Tabellenstrukturen. Diese Arbeit schafft einen rigorosen Evaluierungsrahmen, der Verbesserungen in der arabischen Dokumentenanalyse vorantreiben und die Leistungslücke zu englischen OCR-Technologien verringern kann.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document
processing, robust text recognition has become increasingly critical for
knowledge extraction. While OCR (Optical Character Recognition) for English and
other languages benefits from large datasets and well-established benchmarks,
Arabic OCR faces unique challenges due to its cursive script, right-to-left
text flow, and complex typographic and calligraphic features. We present
KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in
current evaluation systems. Our benchmark comprises 8,809 samples across 9
major domains and 36 sub-domains, encompassing diverse document types including
handwritten text, structured tables, and specialized coverage of 21 chart types
for business intelligence. Our findings show that modern vision-language models
(such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like
EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate
(CER). Furthermore, we highlight significant limitations of current Arabic OCR
models, particularly in PDF-to-Markdown conversion, where the best model
Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in
accurately recognizing Arabic text, including issues with complex fonts,
numeral recognition errors, word elongation, and table structure detection.
This work establishes a rigorous evaluation framework that can drive
improvements in Arabic document analysis methods and bridge the performance gap
with English OCR technologies.Summary
AI-Generated Summary