KITAB-Bench: Un punto de referencia integral multidominio para OCR en árabe y comprensión de documentos
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
February 20, 2025
Autores: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI
Resumen
Con el creciente uso de la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) en el procesamiento de documentos, el reconocimiento robusto de texto se ha vuelto cada vez más crítico para la extracción de conocimiento. Mientras que el OCR (Reconocimiento Óptico de Caracteres) para el inglés y otros idiomas se beneficia de grandes conjuntos de datos y puntos de referencia bien establecidos, el OCR en árabe enfrenta desafíos únicos debido a su escritura cursiva, flujo de texto de derecha a izquierda y características tipográficas y caligráficas complejas. Presentamos KITAB-Bench, un punto de referencia integral para OCR en árabe que aborda las lagunas en los sistemas de evaluación actuales. Nuestro punto de referencia incluye 8,809 muestras en 9 dominios principales y 36 subdominios, abarcando diversos tipos de documentos, como texto manuscrito, tablas estructuradas y cobertura especializada de 21 tipos de gráficos para inteligencia empresarial. Nuestros hallazgos muestran que los modelos modernos de visión y lenguaje (como GPT-4, Gemini y Qwen) superan a los enfoques tradicionales de OCR (como EasyOCR, PaddleOCR y Surya) en un promedio del 60% en la Tasa de Error de Caracteres (CER). Además, destacamos limitaciones significativas en los modelos actuales de OCR en árabe, particularmente en la conversión de PDF a Markdown, donde el mejor modelo, Gemini-2.0-Flash, alcanza solo un 65% de precisión. Esto subraya los desafíos en el reconocimiento preciso de texto en árabe, incluyendo problemas con fuentes complejas, errores en el reconocimiento de numerales, elongación de palabras y detección de estructuras de tablas. Este trabajo establece un marco de evaluación riguroso que puede impulsar mejoras en los métodos de análisis de documentos en árabe y reducir la brecha de rendimiento con las tecnologías de OCR en inglés.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document
processing, robust text recognition has become increasingly critical for
knowledge extraction. While OCR (Optical Character Recognition) for English and
other languages benefits from large datasets and well-established benchmarks,
Arabic OCR faces unique challenges due to its cursive script, right-to-left
text flow, and complex typographic and calligraphic features. We present
KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in
current evaluation systems. Our benchmark comprises 8,809 samples across 9
major domains and 36 sub-domains, encompassing diverse document types including
handwritten text, structured tables, and specialized coverage of 21 chart types
for business intelligence. Our findings show that modern vision-language models
(such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like
EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate
(CER). Furthermore, we highlight significant limitations of current Arabic OCR
models, particularly in PDF-to-Markdown conversion, where the best model
Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in
accurately recognizing Arabic text, including issues with complex fonts,
numeral recognition errors, word elongation, and table structure detection.
This work establishes a rigorous evaluation framework that can drive
improvements in Arabic document analysis methods and bridge the performance gap
with English OCR technologies.Summary
AI-Generated Summary