M3DocRAG: Recuperação Multimodal é o que Você Precisa para a Compreensão de Múltiplas Páginas em Múltiplos Documentos
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
November 7, 2024
Autores: Jaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
cs.AI
Resumo
Os pipelines de resposta a perguntas visuais em documentos (DocVQA) que respondem a perguntas a partir de documentos têm amplas aplicações. Os métodos existentes concentram-se no processamento de documentos de página única com modelos de linguagem multimodal (MLMs) ou dependem de geração aumentada por recuperação baseada em texto (RAG) que utiliza ferramentas de extração de texto, como reconhecimento ótico de caracteres (OCR). No entanto, existem dificuldades na aplicação destes métodos em cenários do mundo real: (a) as perguntas frequentemente exigem informações de diferentes páginas ou documentos, situação em que os MLMs não conseguem lidar com muitos documentos longos; (b) os documentos frequentemente contêm informações importantes em elementos visuais, como figuras, mas as ferramentas de extração de texto ignoram-nos. Apresentamos o M3DocRAG, uma nova estrutura RAG multimodal que acomoda flexivelmente vários contextos de documento (domínio fechado e aberto), saltos de pergunta (salto único e múltiplos saltos) e modalidades de evidência (texto, gráfico, figura, etc.). O M3DocRAG encontra documentos relevantes e responde a perguntas usando um recuperador multimodal e um MLM, permitindo assim lidar eficientemente com um ou muitos documentos, preservando a informação visual. Como os conjuntos de dados anteriores de DocVQA fazem perguntas no contexto de um documento específico, também apresentamos o M3DocVQA, um novo benchmark para avaliar DocVQA de domínio aberto em mais de 3.000 documentos PDF com mais de 40.000 páginas. Em três benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), os resultados empíricos mostram que o M3DocRAG com ColPali e Qwen2-VL 7B alcança um desempenho superior ao de muitas linhas de base fortes, incluindo desempenho de ponta no MP-DocVQA. Fornecemos análises abrangentes de diferentes modelos de indexação, MLMs e recuperação. Por fim, mostramos qualitativamente que o M3DocRAG pode lidar com sucesso com vários cenários, como quando a informação relevante existe em várias páginas e quando a evidência da resposta existe apenas em imagens.
English
Document visual question answering (DocVQA) pipelines that answer questions
from documents have broad applications. Existing methods focus on handling
single-page documents with multi-modal language models (MLMs), or rely on
text-based retrieval-augmented generation (RAG) that uses text extraction tools
such as optical character recognition (OCR). However, there are difficulties in
applying these methods in real-world scenarios: (a) questions often require
information across different pages or documents, where MLMs cannot handle many
long documents; (b) documents often have important information in visual
elements such as figures, but text extraction tools ignore them. We introduce
M3DocRAG, a novel multi-modal RAG framework that flexibly accommodates various
document contexts (closed-domain and open-domain), question hops (single-hop
and multi-hop), and evidence modalities (text, chart, figure, etc.). M3DocRAG
finds relevant documents and answers questions using a multi-modal retriever
and an MLM, so that it can efficiently handle single or many documents while
preserving visual information. Since previous DocVQA datasets ask questions in
the context of a specific document, we also present M3DocVQA, a new benchmark
for evaluating open-domain DocVQA over 3,000+ PDF documents with 40,000+ pages.
In three benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), empirical results
show that M3DocRAG with ColPali and Qwen2-VL 7B achieves superior performance
than many strong baselines, including state-of-the-art performance in
MP-DocVQA. We provide comprehensive analyses of different indexing, MLMs, and
retrieval models. Lastly, we qualitatively show that M3DocRAG can successfully
handle various scenarios, such as when relevant information exists across
multiple pages and when answer evidence only exists in images.