ChatPaper.aiChatPaper

KITAB-Bench: Un Benchmark Completo Multi-Dominio per OCR Arabo e Comprensione dei Documenti

KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

February 20, 2025
Autori: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI

Abstract

Con l'adozione crescente della Generazione Aumentata dal Recupero (RAG) nell'elaborazione dei documenti, il riconoscimento robusto del testo è diventato sempre più cruciale per l'estrazione della conoscenza. Mentre l'OCR (Riconoscimento Ottico dei Caratteri) per l'inglese e altre lingue beneficia di ampi dataset e benchmark consolidati, l'OCR per l'arabo affronta sfide uniche a causa della sua scrittura corsiva, del flusso di testo da destra a sinistra e delle complesse caratteristiche tipografiche e calligrafiche. Presentiamo KITAB-Bench, un benchmark completo per l'OCR arabo che colma le lacune nei sistemi di valutazione attuali. Il nostro benchmark comprende 8.809 campioni distribuiti in 9 domini principali e 36 sottodomini, includendo diversi tipi di documenti come testo manoscritto, tabelle strutturate e una copertura specializzata di 21 tipi di grafici per l'intelligenza aziendale. I nostri risultati mostrano che i moderni modelli visione-linguaggio (come GPT-4, Gemini e Qwen) superano gli approcci OCR tradizionali (come EasyOCR, PaddleOCR e Surya) di una media del 60% nel tasso di errore sui caratteri (CER). Inoltre, evidenziamo significative limitazioni dei modelli OCR arabi attuali, in particolare nella conversione da PDF a Markdown, dove il miglior modello, Gemini-2.0-Flash, raggiunge solo il 65% di accuratezza. Ciò sottolinea le sfide nel riconoscere accuratamente il testo arabo, inclusi problemi con font complessi, errori nel riconoscimento dei numeri, allungamento delle parole e rilevamento della struttura delle tabelle. Questo lavoro stabilisce un rigoroso framework di valutazione che può guidare i miglioramenti nei metodi di analisi dei documenti arabi e colmare il divario di prestazioni con le tecnologie OCR per l'inglese.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document processing, robust text recognition has become increasingly critical for knowledge extraction. While OCR (Optical Character Recognition) for English and other languages benefits from large datasets and well-established benchmarks, Arabic OCR faces unique challenges due to its cursive script, right-to-left text flow, and complex typographic and calligraphic features. We present KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in current evaluation systems. Our benchmark comprises 8,809 samples across 9 major domains and 36 sub-domains, encompassing diverse document types including handwritten text, structured tables, and specialized coverage of 21 chart types for business intelligence. Our findings show that modern vision-language models (such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate (CER). Furthermore, we highlight significant limitations of current Arabic OCR models, particularly in PDF-to-Markdown conversion, where the best model Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in accurately recognizing Arabic text, including issues with complex fonts, numeral recognition errors, word elongation, and table structure detection. This work establishes a rigorous evaluation framework that can drive improvements in Arabic document analysis methods and bridge the performance gap with English OCR technologies.

Summary

AI-Generated Summary

PDF82February 24, 2025