KITAB-Bench : Un Benchmark Multi-Domaines Complet pour la Reconnaissance Optique de Caractères et la Compréhension de Documents en Arabe
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
February 20, 2025
Auteurs: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI
Résumé
Avec l'adoption croissante de la Génération Augmentée par Récupération (RAG) dans le traitement de documents, la reconnaissance robuste de texte est devenue de plus en plus cruciale pour l'extraction de connaissances. Alors que la Reconnaissance Optique de Caractères (OCR) pour l'anglais et d'autres langues bénéficie de vastes ensembles de données et de benchmarks bien établis, l'OCR arabe fait face à des défis uniques en raison de son écriture cursive, de son flux de texte de droite à gauche, et de ses caractéristiques typographiques et calligraphiques complexes. Nous présentons KITAB-Bench, un benchmark complet d'OCR arabe qui comble les lacunes des systèmes d'évaluation actuels. Notre benchmark comprend 8 809 échantillons répartis dans 9 domaines principaux et 36 sous-domaines, couvrant divers types de documents incluant du texte manuscrit, des tableaux structurés, et une couverture spécialisée de 21 types de graphiques pour l'intelligence d'affaires. Nos résultats montrent que les modèles modernes de vision et langage (tels que GPT-4, Gemini et Qwen) surpassent les approches OCR traditionnelles (comme EasyOCR, PaddleOCR et Surya) de 60 % en moyenne en termes de Taux d'Erreur de Caractère (CER). De plus, nous mettons en lumière les limites significatives des modèles actuels d'OCR arabe, notamment dans la conversion de PDF en Markdown, où le meilleur modèle, Gemini-2.0-Flash, n'atteint que 65 % de précision. Cela souligne les défis liés à la reconnaissance précise du texte arabe, incluant les problèmes de polices complexes, d'erreurs de reconnaissance des chiffres, d'étirement des mots et de détection de la structure des tableaux. Ce travail établit un cadre d'évaluation rigoureux qui peut stimuler les améliorations des méthodes d'analyse de documents arabes et combler l'écart de performance avec les technologies OCR anglaises.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document
processing, robust text recognition has become increasingly critical for
knowledge extraction. While OCR (Optical Character Recognition) for English and
other languages benefits from large datasets and well-established benchmarks,
Arabic OCR faces unique challenges due to its cursive script, right-to-left
text flow, and complex typographic and calligraphic features. We present
KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in
current evaluation systems. Our benchmark comprises 8,809 samples across 9
major domains and 36 sub-domains, encompassing diverse document types including
handwritten text, structured tables, and specialized coverage of 21 chart types
for business intelligence. Our findings show that modern vision-language models
(such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like
EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate
(CER). Furthermore, we highlight significant limitations of current Arabic OCR
models, particularly in PDF-to-Markdown conversion, where the best model
Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in
accurately recognizing Arabic text, including issues with complex fonts,
numeral recognition errors, word elongation, and table structure detection.
This work establishes a rigorous evaluation framework that can drive
improvements in Arabic document analysis methods and bridge the performance gap
with English OCR technologies.Summary
AI-Generated Summary