ChatPaper.aiChatPaper

VisRAG: マルチモダリティ文書におけるビジョンベースの検索拡張生成

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

October 14, 2024
著者: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

要旨

Retrieval-augmented generation(RAG)は、大規模言語モデル(LLM)が生成のために外部知識源を活用することを可能にする効果的な技術です。ただし、現在のRAGシステムはテキストにのみ基づいており、レイアウトや画像などのビジョン情報を活用することが不可能であり、これらは実世界のマルチモダリティ文書で重要な役割を果たしています。本論文では、この問題に取り組むために、ビジョン言語モデル(VLM)ベースのRAGパイプラインであるVisRAGを紹介します。このパイプラインでは、ドキュメントを最初にテキストを取得するのではなく、VLMを画像として直接埋め込んでから、VLMの生成を強化するために取得します。従来のテキストベースのRAGと比較して、VisRAGは元のドキュメントのデータ情報の保持と活用を最大化し、解析プロセス中に導入される情報損失を排除します。VisRAGでリトリーバを訓練するためにオープンソースおよび合成データを収集し、さまざまな生成方法を探ります。実験では、VisRAGが従来のRAGをリトリーバおよび生成段階の両方で上回り、従来のテキストベースのRAGパイプラインに比べてエンドツーエンドの性能が25〜39%向上します。さらなる分析から、VisRAGは訓練データを活用し、強力な汎化能力を示すことが明らかとなり、マルチモダリティ文書におけるRAGの有望な解決策として位置付けられます。当該コードおよびデータはhttps://github.com/openbmb/visrag で入手可能です。
English
Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25--39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .

Summary

AI-Generated Summary

PDF273November 16, 2024