VisRAG: Visie-gebaseerde Ophaling-versterkte Generatie op Multi-modaliteit Documenten
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
October 14, 2024
Auteurs: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Samenvatting
Retrieval-augmented generation (RAG) is een effectieve techniek die grote taalmodellen (LLMs) in staat stelt externe kennisbronnen te gebruiken voor generatie. Huidige RAG-systemen zijn echter uitsluitend gebaseerd op tekst, waardoor het onmogelijk is om visuele informatie zoals lay-out en afbeeldingen te gebruiken die een cruciale rol spelen in multi-modaliteitsdocumenten in de echte wereld. In dit artikel introduceren we VisRAG, dat dit probleem aanpakt door een vision-language model (VLM)-gebaseerde RAG-pijplijn op te zetten. In deze pijplijn wordt het document niet eerst geparseerd om tekst te verkrijgen, maar wordt het document direct ingebed met behulp van een VLM als een afbeelding en vervolgens opgehaald om de generatie van een VLM te verbeteren. In vergelijking met traditionele tekstgebaseerde RAG maximaliseert VisRAG het behoud en gebruik van de gegevensinformatie in de originele documenten, waardoor informatieverlies dat wordt geïntroduceerd tijdens het parseerproces wordt geëlimineerd. We verzamelen zowel open-source als synthetische gegevens om de ophaler in VisRAG te trainen en verkennen verschillende generatiemethoden. Experimenten tonen aan dat VisRAG beter presteert dan traditionele RAG in zowel de ophaal- als generatiestadia, met een prestatiewinst van 25-39% van begin tot eind ten opzichte van de traditionele tekstgebaseerde RAG-pijplijn. Verder onderzoek onthult dat VisRAG effectief is in het gebruik van trainingsgegevens en sterke generalisatiecapaciteiten aantoont, waardoor het een veelbelovende oplossing is voor RAG op multi-modaliteitsdocumenten. Onze code en gegevens zijn beschikbaar op https://github.com/openbmb/visrag.
English
Retrieval-augmented generation (RAG) is an effective technique that enables
large language models (LLMs) to utilize external knowledge sources for
generation. However, current RAG systems are solely based on text, rendering it
impossible to utilize vision information like layout and images that play
crucial roles in real-world multi-modality documents. In this paper, we
introduce VisRAG, which tackles this issue by establishing a vision-language
model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the
document to obtain text, the document is directly embedded using a VLM as an
image and then retrieved to enhance the generation of a VLM. Compared to
traditional text-based RAG, VisRAG maximizes the retention and utilization of
the data information in the original documents, eliminating the information
loss introduced during the parsing process. We collect both open-source and
synthetic data to train the retriever in VisRAG and explore a variety of
generation methods. Experiments demonstrate that VisRAG outperforms traditional
RAG in both the retrieval and generation stages, achieving a 25--39\%
end-to-end performance gain over traditional text-based RAG pipeline. Further
analysis reveals that VisRAG is effective in utilizing training data and
demonstrates strong generalization capability, positioning it as a promising
solution for RAG on multi-modality documents. Our code and data are available
at https://github.com/openbmb/visrag .Summary
AI-Generated Summary