ChatPaper.aiChatPaper

KITAB-Bench: Um Benchmark Abrangente e Multidomínio para OCR e Compreensão de Documentos em Árabe

KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

February 20, 2025
Autores: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI

Resumo

Com o crescente adoção da Geração Aumentada por Recuperação (RAG) no processamento de documentos, o reconhecimento robusto de texto tornou-se cada vez mais crítico para a extração de conhecimento. Embora o OCR (Reconhecimento Óptico de Caracteres) para o inglês e outros idiomas se beneficie de grandes conjuntos de dados e benchmarks bem estabelecidos, o OCR para árabe enfrenta desafios únicos devido à sua escrita cursiva, fluxo de texto da direita para a esquerda e características tipográficas e caligráficas complexas. Apresentamos o KITAB-Bench, um benchmark abrangente de OCR para árabe que preenche as lacunas nos sistemas de avaliação atuais. Nosso benchmark compreende 8.809 amostras em 9 domínios principais e 36 subdomínios, abrangendo diversos tipos de documentos, incluindo texto manuscrito, tabelas estruturadas e cobertura especializada de 21 tipos de gráficos para inteligência de negócios. Nossos resultados mostram que os modelos modernos de visão e linguagem (como GPT-4, Gemini e Qwen) superam as abordagens tradicionais de OCR (como EasyOCR, PaddleOCR e Surya) em uma média de 60% na Taxa de Erro de Caracteres (CER). Além disso, destacamos limitações significativas dos modelos atuais de OCR para árafe, particularmente na conversão de PDF para Markdown, onde o melhor modelo, Gemini-2.0-Flash, atinge apenas 65% de precisão. Isso ressalta os desafios no reconhecimento preciso de texto em árabe, incluindo problemas com fontes complexas, erros de reconhecimento de numerais, alongamento de palavras e detecção de estrutura de tabelas. Este trabalho estabelece um rigoroso framework de avaliação que pode impulsionar melhorias nos métodos de análise de documentos em árabe e reduzir a lacuna de desempenho em relação às tecnologias de OCR para inglês.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document processing, robust text recognition has become increasingly critical for knowledge extraction. While OCR (Optical Character Recognition) for English and other languages benefits from large datasets and well-established benchmarks, Arabic OCR faces unique challenges due to its cursive script, right-to-left text flow, and complex typographic and calligraphic features. We present KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in current evaluation systems. Our benchmark comprises 8,809 samples across 9 major domains and 36 sub-domains, encompassing diverse document types including handwritten text, structured tables, and specialized coverage of 21 chart types for business intelligence. Our findings show that modern vision-language models (such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate (CER). Furthermore, we highlight significant limitations of current Arabic OCR models, particularly in PDF-to-Markdown conversion, where the best model Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in accurately recognizing Arabic text, including issues with complex fonts, numeral recognition errors, word elongation, and table structure detection. This work establishes a rigorous evaluation framework that can drive improvements in Arabic document analysis methods and bridge the performance gap with English OCR technologies.

Summary

AI-Generated Summary

PDF82February 24, 2025