CC-VQA: Método Consciente de Conflitos e Correlações para Mitigar Conflitos de Conhecimento em Visual Question Answering Baseado em Conhecimento

Resumo

A resposta visual a perguntas baseada em conhecimento (KB-VQA) demonstra potencial significativo para lidar com tarefas que exigem grande conhecimento. No entanto, surgem conflitos entre o conhecimento paramétrico estático nos modelos de linguagem visual (VLMs) e as informações recuperadas dinamicamente, devido ao conhecimento estático do modelo proveniente do pré-treinamento. As saídas ou ignoram os contextos recuperados ou exibem uma integração inconsistente com o conhecimento paramétrico, representando desafios substanciais para a KB-VQA. Os métodos atuais de mitigação de conflitos de conhecimento, adaptados principalmente de abordagens baseadas em linguagem, concentram-se em conflitos a nível de contexto através de estratégias de *prompting* elaboradas ou mecanismos de decodificação sensíveis ao contexto. Contudo, estes métodos negligenciam o papel crucial da informação visual nos conflitos e sofrem com contextos recuperados redundantes, o que prejudica a identificação precisa de conflitos e a sua mitigação eficaz. Para superar estas limitações, propomos o CC-VQA: um novo método livre de treino, consciente de conflitos e correlações, para KB-VQA. O nosso método compreende dois componentes principais: (1) Raciocínio Contextual de Conflito Centrado na Visão, que realiza uma análise de conflito visual-semântico através de contextos de conhecimento internos e externos; e (2) Codificação e Decodificação Guiadas por Correlação, que apresenta compressão de codificação posicional para declarações de baixa correlação e decodificação adaptativa usando uma pontuação de conflito ponderada pela correlação. Avaliações extensivas nos *benchmarks* E-VQA, InfoSeek e OK-VQA demonstram que o CC-VQA alcança um desempenho de ponta, obtendo melhorias de precisão absoluta de 3,3% a 6,4% em comparação com os métodos existentes. O código está disponível em https://github.com/cqu-student/CC-VQA.

English

Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose CC-VQA: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.

CC-VQA: Método Consciente de Conflitos e Correlações para Mitigar Conflitos de Conhecimento em Visual Question Answering Baseado em Conhecimento

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Resumo

Support