ChatPaper.aiChatPaper

VisDoM: Мультидокументальный вопросно-ответный сервис с использованием визуально насыщенных элементов с помощью мультимодального усиления поиска и генерации.

VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation

December 14, 2024
Авторы: Manan Suri, Puneet Mathur, Franck Dernoncourt, Kanika Goswami, Ryan A. Rossi, Dinesh Manocha
cs.AI

Аннотация

Для успешного ответа на вопросы, связанные с документами, особенно содержащими визуально насыщенные элементы, важно понимать информацию из коллекции нескольких документов. В данной статье представлен VisDoMBench - первый всесторонний бенчмарк, разработанный для оценки систем вопросно-ответной обработки в многодокументных средах с богатым мультимодальным контентом, включая таблицы, графики и слайды презентаций. Мы предлагаем VisDoMRAG - новый мультимодальный подход Retrieval Augmented Generation (RAG), который одновременно использует визуальный и текстовый RAG, объединяя надежные визуальные возможности поиска с изощренным лингвистическим рассуждением. VisDoMRAG использует многоэтапный процесс рассуждения, включающий курирование доказательств и цепочку мыслей для параллельных текстовых и визуальных конвейеров RAG. Одной из ключевых новшеств VisDoMRAG является механизм слияния модальностей с ограничением согласованности, который выравнивает процессы рассуждения между модальностями во время вывода, чтобы получить последовательный окончательный ответ. Это приводит к улучшенной точности в ситуациях, где критическая информация распределена между модальностями, а также к улучшению верифицируемости ответа за счет неявного атрибуции контекста. Через обширные эксперименты с использованием открытых и закрытых крупных языковых моделей мы проводим оценку современных методов вопросно-ответной обработки документов на VisDoMBench. Обширные результаты показывают, что VisDoMRAG превосходит унимодальные и длинноконтекстные базовые модели LLM для мультимодальной вопросно-ответной обработки документов end-to-end на 12-20%.
English
Understanding information from a collection of multiple documents, particularly those with visually rich elements, is important for document-grounded question answering. This paper introduces VisDoMBench, the first comprehensive benchmark designed to evaluate QA systems in multi-document settings with rich multimodal content, including tables, charts, and presentation slides. We propose VisDoMRAG, a novel multimodal Retrieval Augmented Generation (RAG) approach that simultaneously utilizes visual and textual RAG, combining robust visual retrieval capabilities with sophisticated linguistic reasoning. VisDoMRAG employs a multi-step reasoning process encompassing evidence curation and chain-of-thought reasoning for concurrent textual and visual RAG pipelines. A key novelty of VisDoMRAG is its consistency-constrained modality fusion mechanism, which aligns the reasoning processes across modalities at inference time to produce a coherent final answer. This leads to enhanced accuracy in scenarios where critical information is distributed across modalities and improved answer verifiability through implicit context attribution. Through extensive experiments involving open-source and proprietary large language models, we benchmark state-of-the-art document QA methods on VisDoMBench. Extensive results show that VisDoMRAG outperforms unimodal and long-context LLM baselines for end-to-end multimodal document QA by 12-20%.

Summary

AI-Generated Summary

PDF152December 18, 2024