M3DocRAG: Multimodale Retrieval is de Sleutel tot Begrip van Meerdere Pagina's in Meerdere Documenten
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
November 7, 2024
Auteurs: Jaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
cs.AI
Samenvatting
Document Visual Question Answering (DocVQA) pijplijnen die vragen over documenten beantwoorden, hebben brede toepassingen. Bestaande methoden richten zich op het verwerken van documenten met één pagina met multimodale taalmodellen (MLM's), of zijn afhankelijk van op tekst gebaseerde retrieval-augmented generation (RAG) die tekstextractietools zoals optische tekenherkenning (OCR) gebruikt. Er zijn echter moeilijkheden bij het toepassen van deze methoden in realistische scenario's: (a) vragen vereisen vaak informatie uit verschillende pagina's of documenten, waarbij MLM's niet veel lange documenten aankunnen; (b) documenten bevatten vaak belangrijke informatie in visuele elementen zoals figuren, maar tekstextractietools negeren deze. Wij introduceren M3DocRAG, een nieuw multimodaal RAG-raamwerk dat flexibel verschillende documentcontexten (gesloten domein en open domein), vraagtypen (enkelvoudig en meervoudig) en bewijsmodaliteiten (tekst, grafiek, figuur, etc.) accommodeert. M3DocRAG vindt relevante documenten en beantwoordt vragen met behulp van een multimodale retriever en een MLM, zodat het efficiënt één of vele documenten kan verwerken terwijl visuele informatie behouden blijft. Omdat eerdere DocVQA-datasets vragen stellen in de context van een specifiek document, presenteren wij ook M3DocVQA, een nieuwe benchmark voor het evalueren van open-domein DocVQA over 3.000+ PDF-documenten met 40.000+ pagina's. In drie benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA) tonen empirische resultaten aan dat M3DocRAG met ColPali en Qwen2-VL 7B superieure prestaties bereikt dan vele sterke baselines, inclusief state-of-the-art prestaties in MP-DocVQA. Wij bieden uitgebreide analyses van verschillende indexeringsmethoden, MLM's en retrievalmodellen. Ten slotte tonen wij kwalitatief aan dat M3DocRAG met succes verschillende scenario's aankan, zoals wanneer relevante informatie over meerdere pagina's verspreid is en wanneer bewijsmateriaal voor het antwoord alleen in afbeeldingen bestaat.
English
Document visual question answering (DocVQA) pipelines that answer questions
from documents have broad applications. Existing methods focus on handling
single-page documents with multi-modal language models (MLMs), or rely on
text-based retrieval-augmented generation (RAG) that uses text extraction tools
such as optical character recognition (OCR). However, there are difficulties in
applying these methods in real-world scenarios: (a) questions often require
information across different pages or documents, where MLMs cannot handle many
long documents; (b) documents often have important information in visual
elements such as figures, but text extraction tools ignore them. We introduce
M3DocRAG, a novel multi-modal RAG framework that flexibly accommodates various
document contexts (closed-domain and open-domain), question hops (single-hop
and multi-hop), and evidence modalities (text, chart, figure, etc.). M3DocRAG
finds relevant documents and answers questions using a multi-modal retriever
and an MLM, so that it can efficiently handle single or many documents while
preserving visual information. Since previous DocVQA datasets ask questions in
the context of a specific document, we also present M3DocVQA, a new benchmark
for evaluating open-domain DocVQA over 3,000+ PDF documents with 40,000+ pages.
In three benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), empirical results
show that M3DocRAG with ColPali and Qwen2-VL 7B achieves superior performance
than many strong baselines, including state-of-the-art performance in
MP-DocVQA. We provide comprehensive analyses of different indexing, MLMs, and
retrieval models. Lastly, we qualitatively show that M3DocRAG can successfully
handle various scenarios, such as when relevant information exists across
multiple pages and when answer evidence only exists in images.