Визуальное ответы на вопросы на основе знаний с использованием мультимодальной обработки, поиска и фильтрации
Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
October 16, 2025
Авторы: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI
Аннотация
Визуальное ответы на вопросы на основе знаний (KB-VQA) требуют от визуально-языковых моделей (VLMs) интеграции визуального понимания с извлечением внешних знаний. Хотя подход, основанный на генерации с использованием извлечения (RAG), достигает значительных успехов в этой задаче за счет комбинирования запросов к базам знаний, он всё ещё сталкивается с проблемами качества мультимодальных запросов и релевантности извлечённых результатов. Для преодоления этих трудностей мы предлагаем новый трёхэтапный метод, названный Wiki-PRF, включающий этапы обработки, извлечения и фильтрации. На этапе обработки динамически вызываются визуальные инструменты для извлечения точной мультимодальной информации для последующего извлечения. На этапе извлечения интегрируются визуальные и текстовые признаки для достижения мультимодального извлечения знаний. На этапе фильтрации выполняется релевантная фильтрация и концентрация на результатах извлечения. Для этого мы представляем визуально-языковую модель, обученную с использованием точности ответов и согласованности формата в качестве сигналов вознаграждения через подход обучения с подкреплением. Это улучшает способность модели к рассуждению, вызову инструментов для точных запросов и фильтрации нерелевантного содержимого. Эксперименты на эталонных наборах данных (E-VQA и InfoSeek) показывают значительные улучшения (36.0 и 42.8) в качестве ответов, достигая наилучших результатов. Код доступен по адресу https://github.com/cqu-student/Wiki-PRF.
English
Knowledge-based visual question answering (KB-VQA) requires visual language
models (VLMs) to integrate visual understanding with external knowledge
retrieval. Although retrieval-augmented generation (RAG) achieves significant
advances in this task by combining knowledge-base querying, it still struggles
with the quality of multimodal queries and the relevance of retrieved results.
To overcome these challenges, we propose a novel three-stage method, termed
Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing
stage dynamically invokes visual tools to extract precise multimodal
information for retrieval. The retrieval stage integrates visual and text
features to achieve multimodal knowledge retrieval. The filtering stage
performs relevance filtering and concentration on retrieval results. To this
end, we introduce a visual language model trained with answer accuracy and
format consistency as reward signals via a reinforcement learning manner. This
enhances the model's reasoning, tool invocation for accurate queries, and
filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and
InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality,
achieving state-of-the-art performance. Code is available at
https://github.com/cqu-student/Wiki-PRF