ChatPaper.aiChatPaper

Resposta Visual Baseada em Conhecimento com Processamento Multimodal, Recuperação e Filtragem

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

October 16, 2025
Autores: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI

Resumo

A resposta visual baseada em conhecimento (KB-VQA) exige que modelos de linguagem visual (VLMs) integrem a compreensão visual com a recuperação de conhecimento externo. Embora a geração aumentada por recuperação (RAG) tenha alcançado avanços significativos nessa tarefa ao combinar consultas em bases de conhecimento, ainda enfrenta desafios relacionados à qualidade de consultas multimodais e à relevância dos resultados recuperados. Para superar esses desafios, propomos um método inovador em três estágios, denominado Wiki-PRF, que inclui os estágios de Processamento, Recuperação e Filtragem. O estágio de processamento invoca dinamicamente ferramentas visuais para extrair informações multimodais precisas para a recuperação. O estágio de recuperação integra características visuais e textuais para alcançar a recuperação de conhecimento multimodal. O estágio de filtragem realiza a filtragem de relevância e concentração nos resultados recuperados. Para isso, introduzimos um modelo de linguagem visual treinado com precisão de resposta e consistência de formato como sinais de recompensa por meio de uma abordagem de aprendizado por reforço. Isso aprimora o raciocínio do modelo, a invocação de ferramentas para consultas precisas e a filtragem de conteúdo irrelevante. Experimentos em conjuntos de dados de referência (E-VQA e InfoSeek) mostram melhorias significativas (~36,0 e 42,8) na qualidade das respostas, alcançando desempenho de ponta. O código está disponível em https://github.com/cqu-student/Wiki-PRF.
English
Knowledge-based visual question answering (KB-VQA) requires visual language models (VLMs) to integrate visual understanding with external knowledge retrieval. Although retrieval-augmented generation (RAG) achieves significant advances in this task by combining knowledge-base querying, it still struggles with the quality of multimodal queries and the relevance of retrieved results. To overcome these challenges, we propose a novel three-stage method, termed Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing stage dynamically invokes visual tools to extract precise multimodal information for retrieval. The retrieval stage integrates visual and text features to achieve multimodal knowledge retrieval. The filtering stage performs relevance filtering and concentration on retrieval results. To this end, we introduce a visual language model trained with answer accuracy and format consistency as reward signals via a reinforcement learning manner. This enhances the model's reasoning, tool invocation for accurate queries, and filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality, achieving state-of-the-art performance. Code is available at https://github.com/cqu-student/Wiki-PRF
PDF32October 21, 2025