ChatPaper.aiChatPaper

La Segmentazione Guidata dalla Visione è Tutto Ciò che Serve: Migliorare il RAG con la Comprensione Multimodale dei Documenti

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

June 19, 2025
Autori: Vishesh Tripathi, Tanmay Odapally, Indraneel Das, Uday Allu, Biddwan Ahmed
cs.AI

Abstract

I sistemi di Generazione Aumentata dal Recupero (RAG) hanno rivoluzionato il recupero delle informazioni e il question answering, ma i tradizionali metodi di suddivisione in chunk basati su testo faticano a gestire strutture documentali complesse, tabelle multipagina, figure incorporate e dipendenze contestuali che attraversano i confini delle pagine. Presentiamo un nuovo approccio multimodale per la suddivisione in chunk di documenti che sfrutta Modelli Multimodali di Grande Scala (LMM) per elaborare documenti PDF in batch mantenendo la coerenza semantica e l'integrità strutturale. Il nostro metodo elabora i documenti in batch di pagine configurabili con conservazione del contesto tra batch, consentendo una gestione accurata di tabelle che si estendono su più pagine, elementi visivi incorporati e contenuti procedurali. Valutiamo il nostro approccio su un dataset curato di documenti PDF con query create manualmente, dimostrando miglioramenti nella qualità dei chunk e nelle prestazioni downstream dei sistemi RAG. Il nostro approccio guidato dalla visione raggiunge una maggiore accuratezza rispetto ai tradizionali sistemi RAG standard, con un'analisi qualitativa che mostra una conservazione superiore della struttura del documento e della coerenza semantica.
English
Retrieval-Augmented Generation (RAG) systems have revolutionized information retrieval and question answering, but traditional text-based chunking methods struggle with complex document structures, multi-page tables, embedded figures, and contextual dependencies across page boundaries. We present a novel multimodal document chunking approach that leverages Large Multimodal Models (LMMs) to process PDF documents in batches while maintaining semantic coherence and structural integrity. Our method processes documents in configurable page batches with cross-batch context preservation, enabling accurate handling of tables spanning multiple pages, embedded visual elements, and procedural content. We evaluate our approach on a curated dataset of PDF documents with manually crafted queries, demonstrating improvements in chunk quality and downstream RAG performance. Our vision-guided approach achieves better accuracy compared to traditional vanilla RAG systems, with qualitative analysis showing superior preservation of document structure and semantic coherence.
PDF847June 23, 2025