Réponse Visuelle Basée sur les Connaissances avec Traitement Multimodal, Récupération et Filtrage
Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
October 16, 2025
papers.authors: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI
papers.abstract
La réponse visuelle à des questions basée sur la connaissance (KB-VQA) nécessite que les modèles de langage visuel (VLMs) intègrent la compréhension visuelle avec la récupération de connaissances externes. Bien que la génération augmentée par récupération (RAG) réalise des avancées significatives dans cette tâche en combinant l'interrogation de bases de connaissances, elle rencontre encore des difficultés concernant la qualité des requêtes multimodales et la pertinence des résultats récupérés. Pour surmonter ces défis, nous proposons une nouvelle méthode en trois étapes, appelée Wiki-PRF, comprenant les étapes de Traitement, Récupération et Filtrage. L'étape de traitement invoque dynamiquement des outils visuels pour extraire des informations multimodales précises en vue de la récupération. L'étape de récupération intègre les caractéristiques visuelles et textuelles pour réaliser une récupération de connaissances multimodales. L'étape de filtrage effectue un filtrage de pertinence et une concentration sur les résultats de récupération. À cette fin, nous introduisons un modèle de langage visuel entraîné avec la précision des réponses et la cohérence du format comme signaux de récompense via une approche d'apprentissage par renforcement. Cela améliore le raisonnement du modèle, l'invocation d'outils pour des requêtes précises et le filtrage de contenu non pertinent. Les expériences sur des ensembles de données de référence (E-VQA et InfoSeek) montrent des améliorations significatives (36,0 et 42,8) dans la qualité des réponses, atteignant des performances de pointe. Le code est disponible à l'adresse https://github.com/cqu-student/Wiki-PRF.
English
Knowledge-based visual question answering (KB-VQA) requires visual language
models (VLMs) to integrate visual understanding with external knowledge
retrieval. Although retrieval-augmented generation (RAG) achieves significant
advances in this task by combining knowledge-base querying, it still struggles
with the quality of multimodal queries and the relevance of retrieved results.
To overcome these challenges, we propose a novel three-stage method, termed
Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing
stage dynamically invokes visual tools to extract precise multimodal
information for retrieval. The retrieval stage integrates visual and text
features to achieve multimodal knowledge retrieval. The filtering stage
performs relevance filtering and concentration on retrieval results. To this
end, we introduce a visual language model trained with answer accuracy and
format consistency as reward signals via a reinforcement learning manner. This
enhances the model's reasoning, tool invocation for accurate queries, and
filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and
InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality,
achieving state-of-the-art performance. Code is available at
https://github.com/cqu-student/Wiki-PRF