VisRAG: Generazione potenziata da recupero basato sulla visione su documenti di multi-modalità

Abstract

Il recupero potenziato dalla generazione (RAG) è una tecnica efficace che consente ai grandi modelli linguistici (LLM) di utilizzare fonti di conoscenza esterne per la generazione. Tuttavia, i sistemi RAG attuali si basano esclusivamente sul testo, rendendo impossibile utilizzare informazioni visive come layout e immagini che svolgono ruoli cruciali nei documenti multi-modalità del mondo reale. In questo articolo, presentiamo VisRAG, che affronta questo problema stabilendo un flusso di lavoro RAG basato su un modello visione-linguaggio (VLM). In questo flusso di lavoro, anziché analizzare prima il documento per ottenere il testo, il documento viene direttamente incorporato utilizzando un VLM come immagine e quindi recuperato per potenziare la generazione di un VLM. Rispetto al tradizionale RAG basato sul testo, VisRAG massimizza la conservazione e l'utilizzo delle informazioni dei dati nei documenti originali, eliminando la perdita di informazioni introdotta durante il processo di analisi. Raccogliamo sia dati open-source che dati sintetici per addestrare il recuperatore in VisRAG ed esplorare una varietà di metodi di generazione. Gli esperimenti dimostrano che VisRAG supera il tradizionale RAG sia nelle fasi di recupero che di generazione, ottenendo un aumento delle prestazioni end-to-end del 25-39% rispetto al tradizionale flusso di lavoro RAG basato sul testo. Ulteriori analisi rivelano che VisRAG è efficace nell'utilizzo dei dati di addestramento e dimostra una forte capacità di generalizzazione, posizionandolo come una soluzione promettente per il RAG su documenti multi-modalità. Il nostro codice e i dati sono disponibili su https://github.com/openbmb/visrag.

English

Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25--39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .

VisRAG: Generazione potenziata da recupero basato sulla visione su documenti di multi-modalità

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Abstract

Summary

Support

Support