Wissensbasierte visuelle Fragebeantwortung mit multimodaler Verarbeitung, Retrieval und Filterung
Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
October 16, 2025
papers.authors: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI
papers.abstract
Wissensbasierte visuelle Frage-Antwort-Systeme (KB-VQA) erfordern, dass visuelle Sprachmodelle (VLMs) visuelles Verständnis mit der Nutzung externen Wissens integrieren. Obwohl retrieval-augmentierte Generierung (RAG) durch die Kombination von Wissensbasisabfragen bedeutende Fortschritte in dieser Aufgabe erzielt, bestehen weiterhin Herausforderungen hinsichtlich der Qualität multimodaler Abfragen und der Relevanz der abgerufenen Ergebnisse. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige dreistufige Methode vor, die als Wiki-PRF bezeichnet wird und die Stufen Verarbeitung, Abruf und Filterung umfasst. In der Verarbeitungsstufe werden visuelle Werkzeuge dynamisch aufgerufen, um präzise multimodale Informationen für den Abruf zu extrahieren. Die Abrufstufe integriert visuelle und Textmerkmale, um multimodale Wissensabfragen zu ermöglichen. Die Filterstufe führt Relevanzfilterung und Fokussierung auf die abgerufenen Ergebnisse durch. Zu diesem Zweck führen wir ein visuelles Sprachmodell ein, das mit Antwortgenauigkeit und Formatkonsistenz als Belohnungssignale in einem Reinforcement-Learning-Ansatz trainiert wird. Dies verbessert die Fähigkeit des Modells zur logischen Schlussfolgerung, zur präzisen Abfrage durch Werkzeugaufrufe und zur Filterung irrelevanter Inhalte. Experimente auf Benchmark-Datensätzen (E-VQA und InfoSeek) zeigen signifikante Verbesserungen (36,0 und 42,8) in der Antwortqualität und erreichen damit state-of-the-art Leistung. Der Code ist verfügbar unter https://github.com/cqu-student/Wiki-PRF.
English
Knowledge-based visual question answering (KB-VQA) requires visual language
models (VLMs) to integrate visual understanding with external knowledge
retrieval. Although retrieval-augmented generation (RAG) achieves significant
advances in this task by combining knowledge-base querying, it still struggles
with the quality of multimodal queries and the relevance of retrieved results.
To overcome these challenges, we propose a novel three-stage method, termed
Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing
stage dynamically invokes visual tools to extract precise multimodal
information for retrieval. The retrieval stage integrates visual and text
features to achieve multimodal knowledge retrieval. The filtering stage
performs relevance filtering and concentration on retrieval results. To this
end, we introduce a visual language model trained with answer accuracy and
format consistency as reward signals via a reinforcement learning manner. This
enhances the model's reasoning, tool invocation for accurate queries, and
filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and
InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality,
achieving state-of-the-art performance. Code is available at
https://github.com/cqu-student/Wiki-PRF