OCR behindert RAG: Bewertung des kaskadierenden Einflusses von OCR auf die abrufgestützte Generierung.
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
December 3, 2024
Autoren: Junyuan Zhang, Qintong Zhang, Bin Wang, Linke Ouyang, Zichen Wen, Ying Li, Ka-Ho Chow, Conghui He, Wentao Zhang
cs.AI
Zusammenfassung
Die Retrieval-augmented Generation (RAG) verbessert Large Language Models (LLMs), indem externe Wissensquellen integriert werden, um Halluzinationen zu reduzieren und aktuelle Informationen ohne Neutrainieren zu integrieren. Als wesentlicher Bestandteil von RAG werden externe Wissensbasen in der Regel aufgebaut, indem strukturierte Daten aus unstrukturierten PDF-Dokumenten mithilfe von Optical Character Recognition (OCR) extrahiert werden. Aufgrund unvollkommener OCR-Vorhersagen und der inhärenten nicht einheitlichen Darstellung strukturierter Daten enthalten Wissensbasen zwangsläufig verschiedene OCR-Störungen. In diesem Papier stellen wir OHRBench vor, den ersten Benchmark zur Untersuchung der kaskadierenden Auswirkungen von OCR auf RAG-Systeme. OHRBench umfasst 350 sorgfältig ausgewählte unstrukturierte PDF-Dokumente aus sechs realen RAG-Anwendungsbereichen sowie Fragen und Antworten, die aus multimodalen Elementen in den Dokumenten abgeleitet sind, und stellt bestehende OCR-Lösungen für RAG vor Herausforderungen. Um den Einfluss von OCR auf RAG-Systeme besser zu verstehen, identifizieren wir zwei Hauptarten von OCR-Störungen: Semantische Störungen und Formatierungsstörungen und wenden Störungen an, um eine Reihe von strukturierten Daten mit unterschiedlichen Grad an jeder OCR-Störung zu generieren. Unter Verwendung von OHRBench führen wir zunächst eine umfassende Bewertung der aktuellen OCR-Lösungen durch und zeigen auf, dass keine davon kompetent ist, hochwertige Wissensbasen für RAG-Systeme zu erstellen. Anschließend bewerten wir systematisch die Auswirkungen dieser beiden Arten von Störungen und zeigen die Anfälligkeit von RAG-Systemen auf. Darüber hinaus diskutieren wir das Potenzial des Einsatzes von Vision-Language Models (VLMs) ohne OCR in RAG-Systemen. Code: https://github.com/opendatalab/OHR-Bench
English
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by
integrating external knowledge to reduce hallucinations and incorporate
up-to-date information without retraining. As an essential part of RAG,
external knowledge bases are commonly built by extracting structured data from
unstructured PDF documents using Optical Character Recognition (OCR). However,
given the imperfect prediction of OCR and the inherent non-uniform
representation of structured data, knowledge bases inevitably contain various
OCR noises. In this paper, we introduce OHRBench, the first benchmark for
understanding the cascading impact of OCR on RAG systems. OHRBench includes 350
carefully selected unstructured PDF documents from six real-world RAG
application domains, along with Q&As derived from multimodal elements in
documents, challenging existing OCR solutions used for RAG To better understand
OCR's impact on RAG systems, we identify two primary types of OCR noise:
Semantic Noise and Formatting Noise and apply perturbation to generate a set of
structured data with varying degrees of each OCR noise. Using OHRBench, we
first conduct a comprehensive evaluation of current OCR solutions and reveal
that none is competent for constructing high-quality knowledge bases for RAG
systems. We then systematically evaluate the impact of these two noise types
and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the
potential of employing Vision-Language Models (VLMs) without OCR in RAG
systems. Code: https://github.com/opendatalab/OHR-BenchSummary
AI-Generated Summary