OCR Belemmert RAG: Evaluatie van de Cascaderende Impact van OCR op Retrieval-Augmented Generation
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
December 3, 2024
Auteurs: Junyuan Zhang, Qintong Zhang, Bin Wang, Linke Ouyang, Zichen Wen, Ying Li, Ka-Ho Chow, Conghui He, Wentao Zhang
cs.AI
Samenvatting
Retrieval-augmented Generation (RAG) verbetert Large Language Models (LLMs) door externe kennis te integreren om hallucinaties te verminderen en actuele informatie op te nemen zonder opnieuw te trainen. Als een essentieel onderdeel van RAG worden externe kennisbanken doorgaans opgebouwd door gestructureerde gegevens uit ongestructureerde PDF-documenten te extraheren met behulp van Optische Tekstkarakterherkenning (OCR). Echter, gezien de onvolmaakte voorspelling van OCR en de inherente niet-uniforme representatie van gestructureerde gegevens, bevatten kennisbanken onvermijdelijk verschillende OCR-ruis. In dit artikel introduceren we OHRBench, de eerste benchmark voor het begrijpen van de cascaderende impact van OCR op RAG-systemen. OHRBench omvat 350 zorgvuldig geselecteerde ongestructureerde PDF-documenten uit zes RAG-toepassingsdomeinen in de echte wereld, samen met Vraag & Antwoord afgeleid van multimodale elementen in documenten, waarbij bestaande OCR-oplossingen die worden gebruikt voor RAG worden uitgedaagd. Om het effect van OCR op RAG-systemen beter te begrijpen, identificeren we twee primaire soorten OCR-ruis: Semantische Ruis en Opmaakruis en passen we verstoring toe om een set gestructureerde gegevens te genereren met variërende gradaties van elke OCR-ruis. Met behulp van OHRBench voeren we eerst een uitgebreide evaluatie uit van huidige OCR-oplossingen en onthullen dat geen enkele bekwaam is voor het construeren van hoogwaardige kennisbanken voor RAG-systemen. Vervolgens evalueren we systematisch de impact van deze twee soorten ruis en tonen we de kwetsbaarheid van RAG-systemen aan. Verder bespreken we het potentieel van het inzetten van Vision-Language Modellen (VLMs) zonder OCR in RAG-systemen. Code: https://github.com/opendatalab/OHR-Bench
English
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by
integrating external knowledge to reduce hallucinations and incorporate
up-to-date information without retraining. As an essential part of RAG,
external knowledge bases are commonly built by extracting structured data from
unstructured PDF documents using Optical Character Recognition (OCR). However,
given the imperfect prediction of OCR and the inherent non-uniform
representation of structured data, knowledge bases inevitably contain various
OCR noises. In this paper, we introduce OHRBench, the first benchmark for
understanding the cascading impact of OCR on RAG systems. OHRBench includes 350
carefully selected unstructured PDF documents from six real-world RAG
application domains, along with Q&As derived from multimodal elements in
documents, challenging existing OCR solutions used for RAG To better understand
OCR's impact on RAG systems, we identify two primary types of OCR noise:
Semantic Noise and Formatting Noise and apply perturbation to generate a set of
structured data with varying degrees of each OCR noise. Using OHRBench, we
first conduct a comprehensive evaluation of current OCR solutions and reveal
that none is competent for constructing high-quality knowledge bases for RAG
systems. We then systematically evaluate the impact of these two noise types
and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the
potential of employing Vision-Language Models (VLMs) without OCR in RAG
systems. Code: https://github.com/opendatalab/OHR-Bench