VisRAG: Geração Aprimorada por Recuperação Baseada em Visão em Documentos de Multi-modalidade
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
October 14, 2024
Autores: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Resumo
A geração aumentada por recuperação (RAG) é uma técnica eficaz que permite que grandes modelos de linguagem (LLMs) utilizem fontes de conhecimento externas para geração. No entanto, os sistemas RAG atuais são baseados exclusivamente em texto, tornando impossível utilizar informações visuais como layout e imagens que desempenham papéis cruciais em documentos multimodais do mundo real. Neste artigo, apresentamos o VisRAG, que aborda esse problema estabelecendo um pipeline RAG baseado em um modelo de visão-linguagem (VLM). Neste pipeline, em vez de primeiro analisar o documento para obter texto, o documento é diretamente incorporado usando um VLM como uma imagem e depois recuperado para aprimorar a geração de um VLM. Comparado ao RAG tradicional baseado em texto, o VisRAG maximiza a retenção e utilização das informações de dados nos documentos originais, eliminando a perda de informações introduzida durante o processo de análise. Coletamos dados de código aberto e sintéticos para treinar o recuperador no VisRAG e explorar uma variedade de métodos de geração. Experimentos demonstram que o VisRAG supera o RAG tradicional em ambas as etapas de recuperação e geração, alcançando um ganho de desempenho de 25 a 39% em todo o processo em comparação com o pipeline tradicional de RAG baseado em texto. Uma análise adicional revela que o VisRAG é eficaz na utilização de dados de treinamento e demonstra uma forte capacidade de generalização, posicionando-o como uma solução promissora para RAG em documentos multimodais. Nosso código e dados estão disponíveis em https://github.com/openbmb/visrag.
English
Retrieval-augmented generation (RAG) is an effective technique that enables
large language models (LLMs) to utilize external knowledge sources for
generation. However, current RAG systems are solely based on text, rendering it
impossible to utilize vision information like layout and images that play
crucial roles in real-world multi-modality documents. In this paper, we
introduce VisRAG, which tackles this issue by establishing a vision-language
model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the
document to obtain text, the document is directly embedded using a VLM as an
image and then retrieved to enhance the generation of a VLM. Compared to
traditional text-based RAG, VisRAG maximizes the retention and utilization of
the data information in the original documents, eliminating the information
loss introduced during the parsing process. We collect both open-source and
synthetic data to train the retriever in VisRAG and explore a variety of
generation methods. Experiments demonstrate that VisRAG outperforms traditional
RAG in both the retrieval and generation stages, achieving a 25--39\%
end-to-end performance gain over traditional text-based RAG pipeline. Further
analysis reveals that VisRAG is effective in utilizing training data and
demonstrates strong generalization capability, positioning it as a promising
solution for RAG on multi-modality documents. Our code and data are available
at https://github.com/openbmb/visrag .Summary
AI-Generated Summary