ChatPaper.aiChatPaper

Vision-Gestuurde Chunking Is Alles Wat Je Nodig Hebt: Verbetering van RAG met Multimodaal Documentbegrip

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

June 19, 2025
Auteurs: Vishesh Tripathi, Tanmay Odapally, Indraneel Das, Uday Allu, Biddwan Ahmed
cs.AI

Samenvatting

Retrieval-Augmented Generation (RAG)-systemen hebben een revolutie teweeggebracht in informatiezoekopdrachten en vraagbeantwoording, maar traditionele tekstgebaseerde chunkingmethoden hebben moeite met complexe documentstructuren, meerbladige tabellen, ingebedde figuren en contextuele afhankelijkheden over paginagrenzen heen. Wij presenteren een nieuwe multimodale documentchunking-aanpak die gebruikmaakt van Large Multimodal Models (LMMs) om PDF-documenten in batches te verwerken, waarbij semantische samenhang en structurele integriteit behouden blijven. Onze methode verwerkt documenten in configureerbare paginabatches met behoud van context over batchgrenzen heen, waardoor nauwkeurige verwerking van tabellen die over meerdere pagina's lopen, ingebedde visuele elementen en procedurele inhoud mogelijk wordt. We evalueren onze aanpak op een samengestelde dataset van PDF-documenten met handmatig vervaardigde queries, waarbij verbeteringen in chunkkwaliteit en downstream RAG-prestaties worden aangetoond. Onze visiegestuurde aanpak behaalt een betere nauwkeurigheid in vergelijking met traditionele vanilla RAG-systemen, met kwalitatieve analyses die een superieure bewaring van documentstructuur en semantische samenhang aantonen.
English
Retrieval-Augmented Generation (RAG) systems have revolutionized information retrieval and question answering, but traditional text-based chunking methods struggle with complex document structures, multi-page tables, embedded figures, and contextual dependencies across page boundaries. We present a novel multimodal document chunking approach that leverages Large Multimodal Models (LMMs) to process PDF documents in batches while maintaining semantic coherence and structural integrity. Our method processes documents in configurable page batches with cross-batch context preservation, enabling accurate handling of tables spanning multiple pages, embedded visual elements, and procedural content. We evaluate our approach on a curated dataset of PDF documents with manually crafted queries, demonstrating improvements in chunk quality and downstream RAG performance. Our vision-guided approach achieves better accuracy compared to traditional vanilla RAG systems, with qualitative analysis showing superior preservation of document structure and semantic coherence.
PDF857June 23, 2025