ChatPaper.aiChatPaper

KITAB-Bench: 아랍어 OCR 및 문서 이해를 위한 포괄적인 다중 도메인 벤치마크

KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

February 20, 2025
저자: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan
cs.AI

초록

문서 처리 분야에서 검색 강화 생성(Retrieval-Augmented Generation, RAG)의 활용이 증가함에 따라, 지식 추출을 위한 강력한 텍스트 인식 기술의 중요성이 더욱 부각되고 있습니다. 영어 및 기타 언어의 광학 문자 인식(OCR)은 대규모 데이터셋과 잘 정립된 벤치마크의 혜택을 받고 있지만, 아랍어 OCR은 필기체 스크립트, 오른쪽에서 왼쪽으로의 텍스트 흐름, 복잡한 타이포그래피 및 서체 특성으로 인해 독특한 도전에 직면해 있습니다. 본 논문에서는 현재의 평가 시스템에서 존재하는 격차를 메우기 위한 포괄적인 아랍어 OCR 벤치마크인 KITAB-Bench를 소개합니다. 우리의 벤치마크는 9개의 주요 도메인과 36개의 하위 도메인에 걸쳐 8,809개의 샘플로 구성되어 있으며, 필기 텍스트, 구조화된 테이블, 비즈니스 인텔리전스를 위한 21가지 차트 유형의 전문적인 커버리지를 포함한 다양한 문서 유형을 다룹니다. 연구 결과에 따르면, 최신 비전-언어 모델(GPT-4, Gemini, Qwen 등)은 전통적인 OCR 접근법(EasyOCR, PaddleOCR, Surya 등)보다 문자 오류율(Character Error Rate, CER)에서 평균 60% 더 우수한 성능을 보였습니다. 또한, 현재의 아랍어 OCR 모델들이 PDF-to-Markdown 변환에서 특히 심각한 한계를 보이는 점을 강조하며, 최고 성능을 보인 Gemini-2.0-Flash 모델도 65%의 정확도에 그쳤습니다. 이는 복잡한 폰트, 숫자 인식 오류, 단어 연장, 테이블 구조 탐지 등의 문제로 인해 아랍어 텍스트를 정확하게 인식하는 데 어려움이 있음을 보여줍니다. 본 연구는 아랍어 문서 분석 방법의 개선을 촉진하고 영어 OCR 기술과의 성능 격차를 줄이는 데 기여할 수 있는 엄격한 평가 프레임워크를 확립합니다.
English
With the growing adoption of Retrieval-Augmented Generation (RAG) in document processing, robust text recognition has become increasingly critical for knowledge extraction. While OCR (Optical Character Recognition) for English and other languages benefits from large datasets and well-established benchmarks, Arabic OCR faces unique challenges due to its cursive script, right-to-left text flow, and complex typographic and calligraphic features. We present KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in current evaluation systems. Our benchmark comprises 8,809 samples across 9 major domains and 36 sub-domains, encompassing diverse document types including handwritten text, structured tables, and specialized coverage of 21 chart types for business intelligence. Our findings show that modern vision-language models (such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate (CER). Furthermore, we highlight significant limitations of current Arabic OCR models, particularly in PDF-to-Markdown conversion, where the best model Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in accurately recognizing Arabic text, including issues with complex fonts, numeral recognition errors, word elongation, and table structure detection. This work establishes a rigorous evaluation framework that can drive improvements in Arabic document analysis methods and bridge the performance gap with English OCR technologies.

Summary

AI-Generated Summary

PDF82February 24, 2025