VisRAG: Vision-basierte Wiederherstellung-erweiterte Generierung auf Multi-Modalitätsdokumenten

papers.abstract

Die Retrieval-augmented Generation (RAG) ist eine effektive Technik, die es großen Sprachmodellen (LLMs) ermöglicht, externe Wissensquellen für die Generierung zu nutzen. Aktuelle RAG-Systeme basieren jedoch ausschließlich auf Text, was es unmöglich macht, visuelle Informationen wie Layout und Bilder zu nutzen, die in realen multimedialen Dokumenten eine entscheidende Rolle spielen. In diesem Paper stellen wir VisRAG vor, das dieses Problem durch die Einführung eines Vision-Sprachmodell (VLM)-basierten RAG-Pipelines löst. In dieser Pipeline wird das Dokument nicht zuerst geparst, um Text zu erhalten, sondern direkt mithilfe eines VLM als Bild eingebettet und dann zur Verbesserung der Generierung eines VLM abgerufen. Im Vergleich zu traditionellen textbasierten RAG maximiert VisRAG die Beibehaltung und Nutzung der Dateninformationen in den Originaldokumenten und beseitigt den Informationsverlust, der während des Parsings eingeführt wird. Wir sammeln sowohl Open-Source- als auch synthetische Daten, um den Retriever in VisRAG zu trainieren und verschiedene Generierungsmethoden zu erkunden. Experimente zeigen, dass VisRAG sowohl in den Abruf- als auch Generierungsphasen traditionelle RAG übertrifft und einen Leistungsgewinn von 25-39 % im End-to-End-Vergleich zur traditionellen textbasierten RAG-Pipeline erzielt. Weitere Analysen zeigen, dass VisRAG effektiv ist bei der Nutzung von Trainingsdaten und eine starke Verallgemeinerungsfähigkeit aufweist, was es zu einer vielversprechenden Lösung für RAG bei multimedialen Dokumenten macht. Unser Code und unsere Daten sind verfügbar unter https://github.com/openbmb/visrag.

English

Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25--39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .

VisRAG: Vision-basierte Wiederherstellung-erweiterte Generierung auf Multi-Modalitätsdokumenten

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

papers.abstract

Support