M3DocRAG: 다중 페이지 및 다중 문서 이해를 위한 다중 모달 검색의 필요성
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
November 7, 2024
저자: Jaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
cs.AI
초록
문서 시각 질의응답(DocVQA) 파이프라인은 문서에서 질문에 답변하는 다양한 응용 분야를 가지고 있다. 기존 방법들은 다중 모달 언어 모델(MLM)을 사용하여 단일 페이지 문서를 처리하거나, 광학 문자 인식(OCR)과 같은 텍스트 추출 도구를 사용하는 텍스트 기반 검색 증강 생성(RAG)에 의존한다. 그러나 이러한 방법들은 실제 시나리오에서 적용하기 어려운 점이 있다: (a) 질문은 종종 여러 페이지나 문서에 걸친 정보를 요구하는데, MLM은 많은 긴 문서를 처리할 수 없다; (b) 문서는 그림과 같은 시각적 요소에 중요한 정보가 포함되어 있지만, 텍스트 추출 도구는 이를 무시한다. 우리는 다양한 문서 컨텍스트(폐쇄 도메인 및 개방 도메인), 질문 홉(단일 홉 및 다중 홉), 그리고 증거 모달리티(텍스트, 차트, 그림 등)를 유연하게 수용하는 새로운 다중 모달 RAG 프레임워크인 M3DocRAG를 소개한다. M3DocRAG는 다중 모달 검색기와 MLM을 사용하여 관련 문서를 찾고 질문에 답변함으로써, 시각적 정보를 보존하면서 단일 또는 여러 문서를 효율적으로 처리할 수 있다. 기존의 DocVQA 데이터셋은 특정 문서의 컨텍스트에서 질문을 하기 때문에, 우리는 3,000개 이상의 PDF 문서와 40,000개 이상의 페이지를 대상으로 개방 도메인 DocVQA를 평가하기 위한 새로운 벤치마크인 M3DocVQA도 제시한다. 세 가지 벤치마크(M3DocVQA/MMLongBench-Doc/MP-DocVQA)에서의 실험 결과는 ColPali와 Qwen2-VL 7B를 사용한 M3DocRAG가 많은 강력한 베이스라인을 능가하며, 특히 MP-DocVQA에서 최첨단 성능을 달성함을 보여준다. 우리는 다양한 인덱싱, MLM, 그리고 검색 모델에 대한 포괄적인 분석을 제공한다. 마지막으로, M3DocRAG가 여러 페이지에 걸친 관련 정보가 존재하거나 답변 증거가 이미지에만 존재하는 다양한 시나리오를 성공적으로 처리할 수 있음을 정성적으로 보여준다.
English
Document visual question answering (DocVQA) pipelines that answer questions
from documents have broad applications. Existing methods focus on handling
single-page documents with multi-modal language models (MLMs), or rely on
text-based retrieval-augmented generation (RAG) that uses text extraction tools
such as optical character recognition (OCR). However, there are difficulties in
applying these methods in real-world scenarios: (a) questions often require
information across different pages or documents, where MLMs cannot handle many
long documents; (b) documents often have important information in visual
elements such as figures, but text extraction tools ignore them. We introduce
M3DocRAG, a novel multi-modal RAG framework that flexibly accommodates various
document contexts (closed-domain and open-domain), question hops (single-hop
and multi-hop), and evidence modalities (text, chart, figure, etc.). M3DocRAG
finds relevant documents and answers questions using a multi-modal retriever
and an MLM, so that it can efficiently handle single or many documents while
preserving visual information. Since previous DocVQA datasets ask questions in
the context of a specific document, we also present M3DocVQA, a new benchmark
for evaluating open-domain DocVQA over 3,000+ PDF documents with 40,000+ pages.
In three benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), empirical results
show that M3DocRAG with ColPali and Qwen2-VL 7B achieves superior performance
than many strong baselines, including state-of-the-art performance in
MP-DocVQA. We provide comprehensive analyses of different indexing, MLMs, and
retrieval models. Lastly, we qualitatively show that M3DocRAG can successfully
handle various scenarios, such as when relevant information exists across
multiple pages and when answer evidence only exists in images.