ChatPaper.aiChatPaper

Respuesta Visual a Preguntas Basada en Conocimiento con Procesamiento, Recuperación y Filtrado Multimodal

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

October 16, 2025
Autores: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI

Resumen

La respuesta visual a preguntas basada en conocimiento (KB-VQA) requiere que los modelos de lenguaje visual (VLMs) integren la comprensión visual con la recuperación de conocimiento externo. Aunque la generación aumentada por recuperación (RAG) logra avances significativos en esta tarea al combinar la consulta de bases de conocimiento, todavía enfrenta desafíos con la calidad de las consultas multimodales y la relevancia de los resultados recuperados. Para superar estos desafíos, proponemos un método novedoso de tres etapas, denominado Wiki-PRF, que incluye las etapas de Procesamiento, Recuperación y Filtrado. La etapa de procesamiento invoca dinámicamente herramientas visuales para extraer información multimodal precisa para la recuperación. La etapa de recuperación integra características visuales y textuales para lograr la recuperación de conocimiento multimodal. La etapa de filtrado realiza un filtrado de relevancia y concentración en los resultados recuperados. Para ello, introducimos un modelo de lenguaje visual entrenado con precisión en las respuestas y consistencia en el formato como señales de recompensa mediante un enfoque de aprendizaje por refuerzo. Esto mejora el razonamiento del modelo, la invocación de herramientas para consultas precisas y el filtrado de contenido irrelevante. Los experimentos en conjuntos de datos de referencia (E-VQA e InfoSeek) muestran mejoras significativas (~36.0 y 42.8) en la calidad de las respuestas, alcanzando un rendimiento de vanguardia. El código está disponible en https://github.com/cqu-student/Wiki-PRF.
English
Knowledge-based visual question answering (KB-VQA) requires visual language models (VLMs) to integrate visual understanding with external knowledge retrieval. Although retrieval-augmented generation (RAG) achieves significant advances in this task by combining knowledge-base querying, it still struggles with the quality of multimodal queries and the relevance of retrieved results. To overcome these challenges, we propose a novel three-stage method, termed Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing stage dynamically invokes visual tools to extract precise multimodal information for retrieval. The retrieval stage integrates visual and text features to achieve multimodal knowledge retrieval. The filtering stage performs relevance filtering and concentration on retrieval results. To this end, we introduce a visual language model trained with answer accuracy and format consistency as reward signals via a reinforcement learning manner. This enhances the model's reasoning, tool invocation for accurate queries, and filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality, achieving state-of-the-art performance. Code is available at https://github.com/cqu-student/Wiki-PRF
PDF32October 21, 2025