M3DocRAG : La recherche multi-modale est la clé pour la compréhension multi-document et multi-page
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
November 7, 2024
papers.authors: Jaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
cs.AI
papers.abstract
Les pipelines de réponse à des questions visuelles sur des documents (DocVQA) qui répondent à des questions à partir de documents ont des applications étendues. Les méthodes existantes se concentrent sur la gestion de documents à page unique avec des modèles de langage multi-modaux (MLM), ou s'appuient sur une génération augmentée par récupération de texte (RAG) qui utilise des outils d'extraction de texte tels que la reconnaissance optique de caractères (OCR). Cependant, il existe des difficultés à appliquer ces méthodes dans des scénarios réels : (a) les questions nécessitent souvent des informations provenant de différentes pages ou documents, où les MLM ne peuvent pas gérer de nombreux documents longs ; (b) les documents contiennent souvent des informations importantes dans des éléments visuels tels que des figures, mais les outils d'extraction de texte les ignorent. Nous introduisons M3DocRAG, un nouveau cadre RAG multi-modal qui s'adapte de manière flexible à divers contextes de documents (domaine fermé et domaine ouvert), sauts de questions (mono-saut et multi-sauts), et modalités de preuve (texte, graphique, figure, etc.). M3DocRAG trouve les documents pertinents et répond aux questions en utilisant un récupérateur multi-modal et un MLM, ce qui lui permet de gérer efficacement un ou plusieurs documents tout en préservant les informations visuelles. Comme les ensembles de données DocVQA précédents posent des questions dans le contexte d'un document spécifique, nous présentons également M3DocVQA, un nouveau benchmark pour évaluer la DocVQA en domaine ouvert sur plus de 3 000 documents PDF avec plus de 40 000 pages. Dans trois benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), les résultats empiriques montrent que M3DocRAG avec ColPali et Qwen2-VL 7B obtient des performances supérieures à de nombreux modèles de référence, y compris des performances de pointe dans MP-DocVQA. Nous fournissons des analyses complètes de différents indexations, MLM et modèles de récupération. Enfin, nous montrons qualitativement que M3DocRAG peut gérer avec succès divers scénarios, tels que lorsque des informations pertinentes existent sur plusieurs pages et lorsque les preuves de réponse n'existent que dans des images.
English
Document visual question answering (DocVQA) pipelines that answer questions
from documents have broad applications. Existing methods focus on handling
single-page documents with multi-modal language models (MLMs), or rely on
text-based retrieval-augmented generation (RAG) that uses text extraction tools
such as optical character recognition (OCR). However, there are difficulties in
applying these methods in real-world scenarios: (a) questions often require
information across different pages or documents, where MLMs cannot handle many
long documents; (b) documents often have important information in visual
elements such as figures, but text extraction tools ignore them. We introduce
M3DocRAG, a novel multi-modal RAG framework that flexibly accommodates various
document contexts (closed-domain and open-domain), question hops (single-hop
and multi-hop), and evidence modalities (text, chart, figure, etc.). M3DocRAG
finds relevant documents and answers questions using a multi-modal retriever
and an MLM, so that it can efficiently handle single or many documents while
preserving visual information. Since previous DocVQA datasets ask questions in
the context of a specific document, we also present M3DocVQA, a new benchmark
for evaluating open-domain DocVQA over 3,000+ PDF documents with 40,000+ pages.
In three benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), empirical results
show that M3DocRAG with ColPali and Qwen2-VL 7B achieves superior performance
than many strong baselines, including state-of-the-art performance in
MP-DocVQA. We provide comprehensive analyses of different indexing, MLMs, and
retrieval models. Lastly, we qualitatively show that M3DocRAG can successfully
handle various scenarios, such as when relevant information exists across
multiple pages and when answer evidence only exists in images.