VisRAG: Generazione potenziata da recupero basato sulla visione su documenti di multi-modalità
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
October 14, 2024
Autori: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Abstract
Il recupero potenziato dalla generazione (RAG) è una tecnica efficace che consente ai grandi modelli linguistici (LLM) di utilizzare fonti di conoscenza esterne per la generazione. Tuttavia, i sistemi RAG attuali si basano esclusivamente sul testo, rendendo impossibile utilizzare informazioni visive come layout e immagini che svolgono ruoli cruciali nei documenti multi-modalità del mondo reale. In questo articolo, presentiamo VisRAG, che affronta questo problema stabilendo un flusso di lavoro RAG basato su un modello visione-linguaggio (VLM). In questo flusso di lavoro, anziché analizzare prima il documento per ottenere il testo, il documento viene direttamente incorporato utilizzando un VLM come immagine e quindi recuperato per potenziare la generazione di un VLM. Rispetto al tradizionale RAG basato sul testo, VisRAG massimizza la conservazione e l'utilizzo delle informazioni dei dati nei documenti originali, eliminando la perdita di informazioni introdotta durante il processo di analisi. Raccogliamo sia dati open-source che dati sintetici per addestrare il recuperatore in VisRAG ed esplorare una varietà di metodi di generazione. Gli esperimenti dimostrano che VisRAG supera il tradizionale RAG sia nelle fasi di recupero che di generazione, ottenendo un aumento delle prestazioni end-to-end del 25-39% rispetto al tradizionale flusso di lavoro RAG basato sul testo. Ulteriori analisi rivelano che VisRAG è efficace nell'utilizzo dei dati di addestramento e dimostra una forte capacità di generalizzazione, posizionandolo come una soluzione promettente per il RAG su documenti multi-modalità. Il nostro codice e i dati sono disponibili su https://github.com/openbmb/visrag.
English
Retrieval-augmented generation (RAG) is an effective technique that enables
large language models (LLMs) to utilize external knowledge sources for
generation. However, current RAG systems are solely based on text, rendering it
impossible to utilize vision information like layout and images that play
crucial roles in real-world multi-modality documents. In this paper, we
introduce VisRAG, which tackles this issue by establishing a vision-language
model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the
document to obtain text, the document is directly embedded using a VLM as an
image and then retrieved to enhance the generation of a VLM. Compared to
traditional text-based RAG, VisRAG maximizes the retention and utilization of
the data information in the original documents, eliminating the information
loss introduced during the parsing process. We collect both open-source and
synthetic data to train the retriever in VisRAG and explore a variety of
generation methods. Experiments demonstrate that VisRAG outperforms traditional
RAG in both the retrieval and generation stages, achieving a 25--39\%
end-to-end performance gain over traditional text-based RAG pipeline. Further
analysis reveals that VisRAG is effective in utilizing training data and
demonstrates strong generalization capability, positioning it as a promising
solution for RAG on multi-modality documents. Our code and data are available
at https://github.com/openbmb/visrag .Summary
AI-Generated Summary