OCR obstaculiza RAG: Evaluando el Impacto en Cascada de OCR en la Generación Mejorada por Recuperación

OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

December 3, 2024
Autores: Junyuan Zhang, Qintong Zhang, Bin Wang, Linke Ouyang, Zichen Wen, Ying Li, Ka-Ho Chow, Conghui He, Wentao Zhang
cs.AI

Resumen

La Generación con Recuperación Aumentada (RAG) mejora los Modelos de Lenguaje Grandes (LLMs) al integrar conocimiento externo para reducir alucinaciones e incorporar información actualizada sin necesidad de volver a entrenar. Como parte esencial de RAG, las bases de conocimiento externas suelen construirse extrayendo datos estructurados de documentos PDF no estructurados mediante Reconocimiento Óptico de Caracteres (OCR). Sin embargo, debido a la predicción imperfecta del OCR y a la representación no uniforme inherente de los datos estructurados, las bases de conocimiento inevitablemente contienen varios ruidos de OCR. En este documento, presentamos OHRBench, el primer banco de pruebas para comprender el impacto en cascada del OCR en los sistemas RAG. OHRBench incluye 350 documentos PDF no estructurados cuidadosamente seleccionados de seis dominios de aplicación RAG del mundo real, junto con preguntas y respuestas derivadas de elementos multimodales en los documentos, desafiando las soluciones de OCR existentes utilizadas para RAG. Para comprender mejor el impacto del OCR en los sistemas RAG, identificamos dos tipos principales de ruido de OCR: Ruido Semántico y Ruido de Formato, y aplicamos perturbaciones para generar un conjunto de datos estructurados con diferentes grados de cada ruido de OCR. Utilizando OHRBench, realizamos primero una evaluación exhaustiva de las soluciones de OCR actuales y revelamos que ninguna es competente para construir bases de conocimiento de alta calidad para los sistemas RAG. Luego evaluamos sistemáticamente el impacto de estos dos tipos de ruido y demostramos la vulnerabilidad de los sistemas RAG. Además, discutimos el potencial de emplear Modelos de Visión-Lenguaje (VLMs) sin OCR en los sistemas RAG. Código: https://github.com/opendatalab/OHR-Bench
English
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by integrating external knowledge to reduce hallucinations and incorporate up-to-date information without retraining. As an essential part of RAG, external knowledge bases are commonly built by extracting structured data from unstructured PDF documents using Optical Character Recognition (OCR). However, given the imperfect prediction of OCR and the inherent non-uniform representation of structured data, knowledge bases inevitably contain various OCR noises. In this paper, we introduce OHRBench, the first benchmark for understanding the cascading impact of OCR on RAG systems. OHRBench includes 350 carefully selected unstructured PDF documents from six real-world RAG application domains, along with Q&As derived from multimodal elements in documents, challenging existing OCR solutions used for RAG To better understand OCR's impact on RAG systems, we identify two primary types of OCR noise: Semantic Noise and Formatting Noise and apply perturbation to generate a set of structured data with varying degrees of each OCR noise. Using OHRBench, we first conduct a comprehensive evaluation of current OCR solutions and reveal that none is competent for constructing high-quality knowledge bases for RAG systems. We then systematically evaluate the impact of these two noise types and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the potential of employing Vision-Language Models (VLMs) without OCR in RAG systems. Code: https://github.com/opendatalab/OHR-Bench
PDF242December 4, 2024