OCR мешает RAG: Оценка Каскадного Воздействия OCR на Увеличение Генерации
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
December 3, 2024
Авторы: Junyuan Zhang, Qintong Zhang, Bin Wang, Linke Ouyang, Zichen Wen, Ying Li, Ka-Ho Chow, Conghui He, Wentao Zhang
cs.AI
Аннотация
Подход с увеличением поиска (Retrieval-augmented Generation, RAG) улучшает большие языковые модели (Large Language Models, LLMs), интегрируя внешние знания для снижения галлюцинаций и включения актуальной информации без повторного обучения. Как существенная часть RAG, внешние базы знаний обычно создаются путем извлечения структурированных данных из неструктурированных PDF-документов с использованием оптического распознавания символов (OCR). Однако из-за неполного предсказания OCR и врожденного неоднородного представления структурированных данных базы знаний неизбежно содержат различные помехи OCR. В данной статье мы представляем OHRBench, первый бенчмарк для понимания каскадного воздействия OCR на системы RAG. OHRBench включает 350 тщательно отобранных неструктурированных PDF-документов из шести областей применения RAG в реальном мире, а также вопросы и ответы, полученные из мультимодальных элементов документов, представляя вызов существующим решениям OCR, используемым для RAG. Для лучшего понимания влияния OCR на системы RAG мы выделяем два основных типа помех OCR: Семантические помехи и Помехи форматирования, и применяем возмущения для создания набора структурированных данных с различными степенями каждой помехи OCR. С помощью OHRBench мы сначала проводим всестороннюю оценку текущих решений OCR и показываем, что ни одно из них не годится для построения качественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов помех и демонстрируем уязвимость систем RAG. Кроме того, мы обсуждаем потенциал использования моделей видео-языка (Vision-Language Models, VLMs) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench
English
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by
integrating external knowledge to reduce hallucinations and incorporate
up-to-date information without retraining. As an essential part of RAG,
external knowledge bases are commonly built by extracting structured data from
unstructured PDF documents using Optical Character Recognition (OCR). However,
given the imperfect prediction of OCR and the inherent non-uniform
representation of structured data, knowledge bases inevitably contain various
OCR noises. In this paper, we introduce OHRBench, the first benchmark for
understanding the cascading impact of OCR on RAG systems. OHRBench includes 350
carefully selected unstructured PDF documents from six real-world RAG
application domains, along with Q&As derived from multimodal elements in
documents, challenging existing OCR solutions used for RAG To better understand
OCR's impact on RAG systems, we identify two primary types of OCR noise:
Semantic Noise and Formatting Noise and apply perturbation to generate a set of
structured data with varying degrees of each OCR noise. Using OHRBench, we
first conduct a comprehensive evaluation of current OCR solutions and reveal
that none is competent for constructing high-quality knowledge bases for RAG
systems. We then systematically evaluate the impact of these two noise types
and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the
potential of employing Vision-Language Models (VLMs) without OCR in RAG
systems. Code: https://github.com/opendatalab/OHR-BenchSummary
AI-Generated Summary