OCR Entrave RAG : Évaluation de l'Impact en Cascade de l'OCR sur la Génération Améliorée par Récupération
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
December 3, 2024
Auteurs: Junyuan Zhang, Qintong Zhang, Bin Wang, Linke Ouyang, Zichen Wen, Ying Li, Ka-Ho Chow, Conghui He, Wentao Zhang
cs.AI
Résumé
La Génération Augmentée par Récupération (RAG) améliore les Grands Modèles de Langage (LLMs) en intégrant des connaissances externes pour réduire les hallucinations et incorporer des informations à jour sans nécessiter de reformation. En tant que partie essentielle de RAG, les bases de connaissances externes sont généralement construites en extrayant des données structurées à partir de documents PDF non structurés à l'aide de la Reconnaissance Optique de Caractères (OCR). Cependant, étant donné la prédiction imparfaite de l'OCR et la représentation non uniforme inhérente des données structurées, les bases de connaissances contiennent inévitablement divers bruits de l'OCR. Dans cet article, nous présentons OHRBench, le premier banc d'essai pour comprendre l'impact en cascade de l'OCR sur les systèmes RAG. OHRBench comprend 350 documents PDF non structurés soigneusement sélectionnés provenant de six domaines d'application RAG du monde réel, ainsi que des questions-réponses dérivées d'éléments multimodaux dans les documents, mettant au défi les solutions OCR existantes utilisées pour RAG. Pour mieux comprendre l'impact de l'OCR sur les systèmes RAG, nous identifions deux types principaux de bruits de l'OCR : le Bruit Sémantique et le Bruit de Formatage, et appliquons des perturbations pour générer un ensemble de données structurées avec différents degrés de chaque bruit de l'OCR. En utilisant OHRBench, nous menons d'abord une évaluation complète des solutions OCR actuelles et révélons que aucune n'est compétente pour construire des bases de connaissances de haute qualité pour les systèmes RAG. Nous évaluons ensuite systématiquement l'impact de ces deux types de bruits et démontrons la vulnérabilité des systèmes RAG. De plus, nous discutons du potentiel d'utilisation des Modèles Vision-Langage (VLMs) sans OCR dans les systèmes RAG. Code : https://github.com/opendatalab/OHR-Bench
English
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by
integrating external knowledge to reduce hallucinations and incorporate
up-to-date information without retraining. As an essential part of RAG,
external knowledge bases are commonly built by extracting structured data from
unstructured PDF documents using Optical Character Recognition (OCR). However,
given the imperfect prediction of OCR and the inherent non-uniform
representation of structured data, knowledge bases inevitably contain various
OCR noises. In this paper, we introduce OHRBench, the first benchmark for
understanding the cascading impact of OCR on RAG systems. OHRBench includes 350
carefully selected unstructured PDF documents from six real-world RAG
application domains, along with Q&As derived from multimodal elements in
documents, challenging existing OCR solutions used for RAG To better understand
OCR's impact on RAG systems, we identify two primary types of OCR noise:
Semantic Noise and Formatting Noise and apply perturbation to generate a set of
structured data with varying degrees of each OCR noise. Using OHRBench, we
first conduct a comprehensive evaluation of current OCR solutions and reveal
that none is competent for constructing high-quality knowledge bases for RAG
systems. We then systematically evaluate the impact of these two noise types
and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the
potential of employing Vision-Language Models (VLMs) without OCR in RAG
systems. Code: https://github.com/opendatalab/OHR-BenchSummary
AI-Generated Summary