ChatPaper.aiChatPaper

지식 기반 시각적 질의응답: 다중모달 처리, 검색 및 필터링

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

October 16, 2025
저자: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye
cs.AI

초록

지식 기반 시각 질의응답(KB-VQA)은 시각 언어 모델(VLMs)이 시각적 이해와 외부 지식 검색을 통합할 것을 요구합니다. 검색 증강 생성(RAG)이 지식베이스 질의를 결합하여 이 작업에서 상당한 진전을 이루었음에도 불구하고, 여전히 다중모드 질의의 품질과 검색 결과의 관련성에 어려움을 겪고 있습니다. 이러한 문제를 극복하기 위해, 우리는 처리(Processing), 검색(Retrieval), 필터링(Filtering) 단계로 구성된 새로운 3단계 방법론인 Wiki-PRF를 제안합니다. 처리 단계는 정확한 다중모드 정보를 추출하기 위해 시각 도구를 동적으로 호출합니다. 검색 단계는 시각 및 텍스트 특징을 통합하여 다중모드 지식 검색을 달성합니다. 필터링 단계는 검색 결과에 대한 관련성 필터링과 집중을 수행합니다. 이를 위해, 우리는 강화 학습 방식으로 정답 정확도와 형식 일관성을 보상 신호로 사용하여 훈련된 시각 언어 모델을 도입합니다. 이는 모델의 추론 능력, 정확한 질의를 위한 도구 호출, 그리고 관련 없는 내용의 필터링을 강화합니다. 벤치마크 데이터셋(E-VQA 및 InfoSeek)에 대한 실험은 답변 품질에서 상당한 개선(36.0 및 42.8)을 보여주며, 최첨단 성능을 달성합니다. 코드는 https://github.com/cqu-student/Wiki-PRF에서 확인할 수 있습니다.
English
Knowledge-based visual question answering (KB-VQA) requires visual language models (VLMs) to integrate visual understanding with external knowledge retrieval. Although retrieval-augmented generation (RAG) achieves significant advances in this task by combining knowledge-base querying, it still struggles with the quality of multimodal queries and the relevance of retrieved results. To overcome these challenges, we propose a novel three-stage method, termed Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing stage dynamically invokes visual tools to extract precise multimodal information for retrieval. The retrieval stage integrates visual and text features to achieve multimodal knowledge retrieval. The filtering stage performs relevance filtering and concentration on retrieval results. To this end, we introduce a visual language model trained with answer accuracy and format consistency as reward signals via a reinforcement learning manner. This enhances the model's reasoning, tool invocation for accurate queries, and filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality, achieving state-of-the-art performance. Code is available at https://github.com/cqu-student/Wiki-PRF
PDF32October 21, 2025