ChatPaper.aiChatPaper

La Segmentation Guidée par la Vision Est Tout Ce Dont Vous Avez Besoin : Améliorer le RAG avec la Compréhension Multimodale des Documents

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

June 19, 2025
Auteurs: Vishesh Tripathi, Tanmay Odapally, Indraneel Das, Uday Allu, Biddwan Ahmed
cs.AI

Résumé

Les systèmes de Génération Augmentée par Récupération (RAG) ont révolutionné la recherche d'information et la réponse aux questions, mais les méthodes traditionnelles de segmentation de texte peinent à gérer les structures complexes de documents, les tableaux multi-pages, les figures intégrées et les dépendances contextuelles traversant les limites des pages. Nous présentons une nouvelle approche de segmentation multimodale de documents qui exploite les Modèles Multimodaux de Grande Taille (LMM) pour traiter les documents PDF par lots tout en préservant la cohérence sémantique et l'intégrité structurelle. Notre méthode traite les documents par lots de pages configurables avec préservation du contexte inter-lots, permettant une gestion précise des tableaux s'étendant sur plusieurs pages, des éléments visuels intégrés et du contenu procédural. Nous évaluons notre approche sur un ensemble de données soigneusement sélectionné de documents PDF avec des requêtes manuellement élaborées, démontrant des améliorations dans la qualité des segments et les performances en aval des systèmes RAG. Notre approche guidée par la vision atteint une meilleure précision par rapport aux systèmes RAG traditionnels, avec une analyse qualitative montrant une préservation supérieure de la structure du document et de la cohérence sémantique.
English
Retrieval-Augmented Generation (RAG) systems have revolutionized information retrieval and question answering, but traditional text-based chunking methods struggle with complex document structures, multi-page tables, embedded figures, and contextual dependencies across page boundaries. We present a novel multimodal document chunking approach that leverages Large Multimodal Models (LMMs) to process PDF documents in batches while maintaining semantic coherence and structural integrity. Our method processes documents in configurable page batches with cross-batch context preservation, enabling accurate handling of tables spanning multiple pages, embedded visual elements, and procedural content. We evaluate our approach on a curated dataset of PDF documents with manually crafted queries, demonstrating improvements in chunk quality and downstream RAG performance. Our vision-guided approach achieves better accuracy compared to traditional vanilla RAG systems, with qualitative analysis showing superior preservation of document structure and semantic coherence.
PDF627June 23, 2025