OCR Impede RAG: Avaliando o Impacto Cascata do OCR na Geração Aprimorada de Recuperação
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
December 3, 2024
Autores: Junyuan Zhang, Qintong Zhang, Bin Wang, Linke Ouyang, Zichen Wen, Ying Li, Ka-Ho Chow, Conghui He, Wentao Zhang
cs.AI
Resumo
A Geração com Recuperação Aumentada (RAG) aprimora os Modelos de Linguagem de Grande Escala (LLMs) integrando conhecimento externo para reduzir alucinações e incorporar informações atualizadas sem a necessidade de retrabalho. Como parte essencial da RAG, bases de conhecimento externas são comumente construídas pela extração de dados estruturados de documentos PDF não estruturados usando Reconhecimento Óptico de Caracteres (OCR). No entanto, devido à previsão imperfeita do OCR e à representação não uniforme inerente dos dados estruturados, as bases de conhecimento inevitavelmente contêm vários ruídos do OCR. Neste artigo, apresentamos o OHRBench, o primeiro benchmark para compreender o impacto em cascata do OCR nos sistemas RAG. O OHRBench inclui 350 documentos PDF não estruturados cuidadosamente selecionados de seis domínios de aplicação RAG do mundo real, juntamente com perguntas e respostas derivadas de elementos multimodais nos documentos, desafiando as soluções de OCR existentes usadas para RAG. Para entender melhor o impacto do OCR nos sistemas RAG, identificamos dois tipos principais de ruído do OCR: Ruído Semântico e Ruído de Formatação e aplicamos perturbação para gerar um conjunto de dados estruturados com diferentes graus de cada ruído do OCR. Usando o OHRBench, realizamos uma avaliação abrangente das soluções de OCR atuais e revelamos que nenhuma é competente para construir bases de conhecimento de alta qualidade para sistemas RAG. Em seguida, avaliamos sistematicamente o impacto desses dois tipos de ruído e demonstramos a vulnerabilidade dos sistemas RAG. Além disso, discutimos o potencial de empregar Modelos de Visão-Linguagem (VLMs) sem OCR em sistemas RAG. Código: https://github.com/opendatalab/OHR-Bench
English
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by
integrating external knowledge to reduce hallucinations and incorporate
up-to-date information without retraining. As an essential part of RAG,
external knowledge bases are commonly built by extracting structured data from
unstructured PDF documents using Optical Character Recognition (OCR). However,
given the imperfect prediction of OCR and the inherent non-uniform
representation of structured data, knowledge bases inevitably contain various
OCR noises. In this paper, we introduce OHRBench, the first benchmark for
understanding the cascading impact of OCR on RAG systems. OHRBench includes 350
carefully selected unstructured PDF documents from six real-world RAG
application domains, along with Q&As derived from multimodal elements in
documents, challenging existing OCR solutions used for RAG To better understand
OCR's impact on RAG systems, we identify two primary types of OCR noise:
Semantic Noise and Formatting Noise and apply perturbation to generate a set of
structured data with varying degrees of each OCR noise. Using OHRBench, we
first conduct a comprehensive evaluation of current OCR solutions and reveal
that none is competent for constructing high-quality knowledge bases for RAG
systems. We then systematically evaluate the impact of these two noise types
and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the
potential of employing Vision-Language Models (VLMs) without OCR in RAG
systems. Code: https://github.com/opendatalab/OHR-BenchSummary
AI-Generated Summary