VisRAG: Generación Aumentada con Recuperación basada en Visión en Documentos de Multi-modalidad
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
October 14, 2024
Autores: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Resumen
La generación aumentada por recuperación (RAG) es una técnica efectiva que permite a los grandes modelos de lenguaje (LLMs) utilizar fuentes de conocimiento externas para la generación. Sin embargo, los sistemas RAG actuales se basan únicamente en texto, lo que hace imposible utilizar información visual como el diseño y las imágenes que desempeñan roles cruciales en documentos multimodales del mundo real. En este artículo, presentamos VisRAG, que aborda este problema estableciendo un pipeline RAG basado en un modelo de visión-lenguaje (VLM). En este pipeline, en lugar de analizar primero el documento para obtener texto, el documento se incrusta directamente utilizando un VLM como una imagen y luego se recupera para mejorar la generación de un VLM. En comparación con el RAG tradicional basado en texto, VisRAG maximiza la retención y utilización de la información de datos en los documentos originales, eliminando la pérdida de información introducida durante el proceso de análisis. Recopilamos datos tanto de código abierto como sintéticos para entrenar el recuperador en VisRAG y explorar una variedad de métodos de generación. Los experimentos demuestran que VisRAG supera al RAG tradicional tanto en las etapas de recuperación como de generación, logrando una mejora de rendimiento de extremo a extremo del 25 al 39% sobre el pipeline RAG tradicional basado en texto. Un análisis adicional revela que VisRAG es efectivo en la utilización de datos de entrenamiento y demuestra una sólida capacidad de generalización, posicionándolo como una solución prometedora para RAG en documentos multimodales. Nuestro código y datos están disponibles en https://github.com/openbmb/visrag.
English
Retrieval-augmented generation (RAG) is an effective technique that enables
large language models (LLMs) to utilize external knowledge sources for
generation. However, current RAG systems are solely based on text, rendering it
impossible to utilize vision information like layout and images that play
crucial roles in real-world multi-modality documents. In this paper, we
introduce VisRAG, which tackles this issue by establishing a vision-language
model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the
document to obtain text, the document is directly embedded using a VLM as an
image and then retrieved to enhance the generation of a VLM. Compared to
traditional text-based RAG, VisRAG maximizes the retention and utilization of
the data information in the original documents, eliminating the information
loss introduced during the parsing process. We collect both open-source and
synthetic data to train the retriever in VisRAG and explore a variety of
generation methods. Experiments demonstrate that VisRAG outperforms traditional
RAG in both the retrieval and generation stages, achieving a 25--39\%
end-to-end performance gain over traditional text-based RAG pipeline. Further
analysis reveals that VisRAG is effective in utilizing training data and
demonstrates strong generalization capability, positioning it as a promising
solution for RAG on multi-modality documents. Our code and data are available
at https://github.com/openbmb/visrag .Summary
AI-Generated Summary