VisRAG: Визионно-ориентированное улучшение поиска с генерацией на мульти-модальных документах
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
October 14, 2024
Авторы: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Аннотация
Подход с использованием поискового усиления для генерации (RAG) является эффективной техникой, которая позволяет крупным языковым моделям (LLM) использовать внешние источники знаний для генерации. Однако текущие системы RAG основаны исключительно на тексте, что делает невозможным использование информации о визуальном представлении, такой как макет и изображения, которые играют ключевую роль в документах с множественными модальностями в реальном мире. В данной статье мы представляем VisRAG, который решает эту проблему путем создания конвейера RAG на основе модели визуально-языкового взаимодействия (VLM). В этом конвейере, вместо того чтобы сначала анализировать документ для получения текста, документ непосредственно встраивается с использованием VLM в качестве изображения, после чего происходит поиск для улучшения генерации VLM. По сравнению с традиционным текстовым RAG, VisRAG максимизирует сохранение и использование информации из исходных документов, устраняя потерю информации, внесенную в процессе анализа. Мы собрали как открытые, так и синтетические данные для обучения поисковика в VisRAG и исследовали различные методы генерации. Эксперименты показывают, что VisRAG превосходит традиционный RAG как на этапе поиска, так и на этапе генерации, достигая прироста производительности от 25 до 39\% по сравнению с традиционным конвейером RAG на основе текста. Дополнительный анализ показывает, что VisRAG эффективно использует обучающие данные и обладает сильной обобщающей способностью, что делает его многообещающим решением для RAG в документах с множественными модальностями. Наш код и данные доступны по ссылке https://github.com/openbmb/visrag.
English
Retrieval-augmented generation (RAG) is an effective technique that enables
large language models (LLMs) to utilize external knowledge sources for
generation. However, current RAG systems are solely based on text, rendering it
impossible to utilize vision information like layout and images that play
crucial roles in real-world multi-modality documents. In this paper, we
introduce VisRAG, which tackles this issue by establishing a vision-language
model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the
document to obtain text, the document is directly embedded using a VLM as an
image and then retrieved to enhance the generation of a VLM. Compared to
traditional text-based RAG, VisRAG maximizes the retention and utilization of
the data information in the original documents, eliminating the information
loss introduced during the parsing process. We collect both open-source and
synthetic data to train the retriever in VisRAG and explore a variety of
generation methods. Experiments demonstrate that VisRAG outperforms traditional
RAG in both the retrieval and generation stages, achieving a 25--39\%
end-to-end performance gain over traditional text-based RAG pipeline. Further
analysis reveals that VisRAG is effective in utilizing training data and
demonstrates strong generalization capability, positioning it as a promising
solution for RAG on multi-modality documents. Our code and data are available
at https://github.com/openbmb/visrag .Summary
AI-Generated Summary