VisDoM : Question-réponse multi-documents avec des éléments visuellement riches utilisant la génération augmentée par recherche multimodale.
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation
December 14, 2024
Auteurs: Manan Suri, Puneet Mathur, Franck Dernoncourt, Kanika Goswami, Ryan A. Rossi, Dinesh Manocha
cs.AI
Résumé
La compréhension des informations provenant d'une collection de plusieurs documents, en particulier ceux contenant des éléments visuellement riches, est importante pour la réponse aux questions ancrées dans les documents. Cet article présente VisDoMBench, le premier banc d'essai complet conçu pour évaluer les systèmes de question-réponse dans des contextes multi-documents avec un contenu multimodal riche, comprenant des tableaux, des graphiques et des diapositives de présentation. Nous proposons VisDoMRAG, une nouvelle approche de Génération Augmentée par Récupération (GAR) multimodale qui utilise simultanément la GAR visuelle et textuelle, combinant des capacités robustes de récupération visuelle avec un raisonnement linguistique sophistiqué. VisDoMRAG utilise un processus de raisonnement en plusieurs étapes englobant la curation des preuves et le raisonnement en chaîne pour des pipelines de GAR textuelle et visuelle simultanés. Une nouveauté clé de VisDoMRAG est son mécanisme de fusion de modalités contraint par la cohérence, qui aligne les processus de raisonnement entre les modalités au moment de l'inférence pour produire une réponse finale cohérente. Cela conduit à une précision améliorée dans les scénarios où les informations critiques sont réparties entre les modalités et à une meilleure vérifiabilité des réponses grâce à une attribution contextuelle implicite. À travers des expériences approfondies impliquant des modèles de langage larges open-source et propriétaires, nous évaluons les méthodes de réponse aux questions documentaires de pointe sur VisDoMBench. Les résultats étendus montrent que VisDoMRAG surpasse les références basées sur des modèles de langage unimodaux et à long contexte pour la réponse aux questions documentaires multimodales de bout en bout de 12 à 20%.
English
Understanding information from a collection of multiple documents,
particularly those with visually rich elements, is important for
document-grounded question answering. This paper introduces VisDoMBench, the
first comprehensive benchmark designed to evaluate QA systems in multi-document
settings with rich multimodal content, including tables, charts, and
presentation slides. We propose VisDoMRAG, a novel multimodal Retrieval
Augmented Generation (RAG) approach that simultaneously utilizes visual and
textual RAG, combining robust visual retrieval capabilities with sophisticated
linguistic reasoning. VisDoMRAG employs a multi-step reasoning process
encompassing evidence curation and chain-of-thought reasoning for concurrent
textual and visual RAG pipelines. A key novelty of VisDoMRAG is its
consistency-constrained modality fusion mechanism, which aligns the reasoning
processes across modalities at inference time to produce a coherent final
answer. This leads to enhanced accuracy in scenarios where critical information
is distributed across modalities and improved answer verifiability through
implicit context attribution. Through extensive experiments involving
open-source and proprietary large language models, we benchmark
state-of-the-art document QA methods on VisDoMBench. Extensive results show
that VisDoMRAG outperforms unimodal and long-context LLM baselines for
end-to-end multimodal document QA by 12-20%.Summary
AI-Generated Summary