Kennisgebaseerd Visueel Vragen Beantwoorden met Multimodale Verwerking, Ophalen en Filteren
Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
October 16, 2025
Auteurs: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI
Samenvatting
Kennisgebaseerd visueel vraag-antwoord (KB-VQA) vereist dat visuele taalmodellen (VLMs) visueel begrip integreren met het ophalen van externe kennis. Hoewel retrieval-augmented generation (RAG) aanzienlijke vooruitgang boekt in deze taak door het combineren van kennisbankquery's, worstelt het nog steeds met de kwaliteit van multimodale query's en de relevantie van opgehaalde resultaten. Om deze uitdagingen te overwinnen, stellen we een nieuwe driestapsmethode voor, genaamd Wiki-PRF, inclusief Verwerking, Ophalen en Filteren. In de verwerkingsfase worden visuele tools dynamisch aangeroepen om precieze multimodale informatie voor het ophalen te extraheren. De ophaalfase integreert visuele en tekstuele kenmerken om multimodale kennisretrieval te bereiken. De filterfase voert relevantiefiltering en concentratie uit op de opgehaalde resultaten. Hiertoe introduceren we een visueel taalmodel dat is getraind met antwoordnauwkeurigheid en formaatconsistentie als beloningssignalen via een reinforcement learning-benadering. Dit verbetert het redeneervermogen van het model, het aanroepen van tools voor nauwkeurige query's en het filteren van irrelevante inhoud. Experimenten op benchmarkdatasets (E-VQA en InfoSeek) tonen significante verbeteringen~(36,0 en 42,8) in de kwaliteit van antwoorden, wat resulteert in state-of-the-art prestaties. Code is beschikbaar op https://github.com/cqu-student/Wiki-PRF.
English
Knowledge-based visual question answering (KB-VQA) requires visual language
models (VLMs) to integrate visual understanding with external knowledge
retrieval. Although retrieval-augmented generation (RAG) achieves significant
advances in this task by combining knowledge-base querying, it still struggles
with the quality of multimodal queries and the relevance of retrieved results.
To overcome these challenges, we propose a novel three-stage method, termed
Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing
stage dynamically invokes visual tools to extract precise multimodal
information for retrieval. The retrieval stage integrates visual and text
features to achieve multimodal knowledge retrieval. The filtering stage
performs relevance filtering and concentration on retrieval results. To this
end, we introduce a visual language model trained with answer accuracy and
format consistency as reward signals via a reinforcement learning manner. This
enhances the model's reasoning, tool invocation for accurate queries, and
filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and
InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality,
achieving state-of-the-art performance. Code is available at
https://github.com/cqu-student/Wiki-PRF