VisRAG: Vision-basierte Wiederherstellung-erweiterte Generierung auf Multi-Modalitätsdokumenten
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
October 14, 2024
Autoren: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Zusammenfassung
Die Retrieval-augmented Generation (RAG) ist eine effektive Technik, die es großen Sprachmodellen (LLMs) ermöglicht, externe Wissensquellen für die Generierung zu nutzen. Aktuelle RAG-Systeme basieren jedoch ausschließlich auf Text, was es unmöglich macht, visuelle Informationen wie Layout und Bilder zu nutzen, die in realen multimedialen Dokumenten eine entscheidende Rolle spielen. In diesem Paper stellen wir VisRAG vor, das dieses Problem durch die Einführung eines Vision-Sprachmodell (VLM)-basierten RAG-Pipelines löst. In dieser Pipeline wird das Dokument nicht zuerst geparst, um Text zu erhalten, sondern direkt mithilfe eines VLM als Bild eingebettet und dann zur Verbesserung der Generierung eines VLM abgerufen. Im Vergleich zu traditionellen textbasierten RAG maximiert VisRAG die Beibehaltung und Nutzung der Dateninformationen in den Originaldokumenten und beseitigt den Informationsverlust, der während des Parsings eingeführt wird. Wir sammeln sowohl Open-Source- als auch synthetische Daten, um den Retriever in VisRAG zu trainieren und verschiedene Generierungsmethoden zu erkunden. Experimente zeigen, dass VisRAG sowohl in den Abruf- als auch Generierungsphasen traditionelle RAG übertrifft und einen Leistungsgewinn von 25-39 % im End-to-End-Vergleich zur traditionellen textbasierten RAG-Pipeline erzielt. Weitere Analysen zeigen, dass VisRAG effektiv ist bei der Nutzung von Trainingsdaten und eine starke Verallgemeinerungsfähigkeit aufweist, was es zu einer vielversprechenden Lösung für RAG bei multimedialen Dokumenten macht. Unser Code und unsere Daten sind verfügbar unter https://github.com/openbmb/visrag.
English
Retrieval-augmented generation (RAG) is an effective technique that enables
large language models (LLMs) to utilize external knowledge sources for
generation. However, current RAG systems are solely based on text, rendering it
impossible to utilize vision information like layout and images that play
crucial roles in real-world multi-modality documents. In this paper, we
introduce VisRAG, which tackles this issue by establishing a vision-language
model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the
document to obtain text, the document is directly embedded using a VLM as an
image and then retrieved to enhance the generation of a VLM. Compared to
traditional text-based RAG, VisRAG maximizes the retention and utilization of
the data information in the original documents, eliminating the information
loss introduced during the parsing process. We collect both open-source and
synthetic data to train the retriever in VisRAG and explore a variety of
generation methods. Experiments demonstrate that VisRAG outperforms traditional
RAG in both the retrieval and generation stages, achieving a 25--39\%
end-to-end performance gain over traditional text-based RAG pipeline. Further
analysis reveals that VisRAG is effective in utilizing training data and
demonstrates strong generalization capability, positioning it as a promising
solution for RAG on multi-modality documents. Our code and data are available
at https://github.com/openbmb/visrag .Summary
AI-Generated Summary