ChatPaper.aiChatPaper

VisRAG : Génération augmentée par recherche basée sur la vision dans des documents multi-modalités

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

October 14, 2024
Auteurs: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

Résumé

La génération augmentée par récupération (RAG) est une technique efficace qui permet aux grands modèles de langage (LLM) d'utiliser des sources de connaissances externes pour la génération. Cependant, les systèmes RAG actuels sont uniquement basés sur du texte, rendant impossible l'utilisation d'informations visuelles telles que la mise en page et les images qui jouent un rôle crucial dans les documents multimodaux du monde réel. Dans cet article, nous présentons VisRAG, qui aborde ce problème en établissant un pipeline RAG basé sur un modèle vision-langage (VLM). Dans ce pipeline, au lieu d'analyser d'abord le document pour obtenir du texte, le document est directement intégré en utilisant un VLM en tant qu'image, puis récupéré pour améliorer la génération d'un VLM. Comparé au RAG traditionnel basé sur du texte, VisRAG maximise la rétention et l'utilisation des informations de données dans les documents originaux, éliminant la perte d'informations introduite lors du processus d'analyse. Nous collectons à la fois des données open source et synthétiques pour entraîner le système de récupération dans VisRAG et explorons diverses méthodes de génération. Les expériences démontrent que VisRAG surpasse le RAG traditionnel à la fois dans les étapes de récupération et de génération, réalisant un gain de performance de bout en bout de 25 à 39 % par rapport au pipeline RAG traditionnel basé sur du texte. Une analyse supplémentaire révèle que VisRAG est efficace dans l'utilisation des données d'entraînement et démontre une forte capacité de généralisation, ce qui en fait une solution prometteuse pour le RAG sur les documents multimodaux. Notre code et nos données sont disponibles sur https://github.com/openbmb/visrag.
English
Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25--39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .

Summary

AI-Generated Summary

PDF273November 16, 2024