ChatPaper.aiChatPaper

Risposte Visive Basate sulla Conoscenza con Elaborazione Multimodale, Recupero e Filtraggio

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

October 16, 2025
Autori: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI

Abstract

Il question answering visivo basato sulla conoscenza (KB-VQA) richiede ai modelli linguistici visivi (VLMs) di integrare la comprensione visiva con il recupero di conoscenze esterne. Sebbene la generazione aumentata dal recupero (RAG) abbia ottenuto progressi significativi in questo compito combinando l'interrogazione di basi di conoscenza, continua a lottare con la qualità delle query multimodali e la pertinenza dei risultati recuperati. Per superare queste sfide, proponiamo un metodo innovativo in tre fasi, denominato Wiki-PRF, che include le fasi di Elaborazione, Recupero e Filtraggio. La fase di elaborazione invoca dinamicamente strumenti visivi per estrarre informazioni multimodali precise per il recupero. La fase di recupero integra caratteristiche visive e testuali per ottenere un recupero multimodale della conoscenza. La fase di filtraggio esegue un filtraggio della pertinenza e una concentrazione sui risultati recuperati. A tal fine, introduciamo un modello linguistico visivo addestrato con l'accuratezza delle risposte e la coerenza del formato come segnali di ricompensa attraverso un approccio di apprendimento per rinforzo. Ciò migliora il ragionamento del modello, l'invocazione di strumenti per query accurate e il filtraggio di contenuti irrilevanti. Gli esperimenti su dataset di riferimento (E-VQA e InfoSeek) mostrano miglioramenti significativi (36.0 e 42.8) nella qualità delle risposte, raggiungendo prestazioni all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/cqu-student/Wiki-PRF.
English
Knowledge-based visual question answering (KB-VQA) requires visual language models (VLMs) to integrate visual understanding with external knowledge retrieval. Although retrieval-augmented generation (RAG) achieves significant advances in this task by combining knowledge-base querying, it still struggles with the quality of multimodal queries and the relevance of retrieved results. To overcome these challenges, we propose a novel three-stage method, termed Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing stage dynamically invokes visual tools to extract precise multimodal information for retrieval. The retrieval stage integrates visual and text features to achieve multimodal knowledge retrieval. The filtering stage performs relevance filtering and concentration on retrieval results. To this end, we introduce a visual language model trained with answer accuracy and format consistency as reward signals via a reinforcement learning manner. This enhances the model's reasoning, tool invocation for accurate queries, and filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality, achieving state-of-the-art performance. Code is available at https://github.com/cqu-student/Wiki-PRF
PDF32October 21, 2025