CC-VQA: Metodo Consapevole dei Conflitti e delle Correlazioni per Mitigare i Conflitti di Conoscenza nel Visual Question Answering Basato su Conoscenza

Abstract

Il question answering visivo basato su conoscenza (KB-VQA) dimostra un potenziale significativo nella gestione di compiti ad alta intensità di conoscenza. Tuttavia, sorgono conflitti tra la conoscenza parametrica statica nei modelli visione-linguaggio (VLM) e le informazioni recuperate dinamicamente, a causa della natura statica della conoscenza del modello acquisita durante il pre-training. Gli output tendono a ignorare i contesti recuperati o a mostrare un'integrazione incoerente con la conoscenza parametrica, ponendo sfide sostanziali per il KB-VQA. I metodi attuali per mitigare i conflitti di conoscenza sono principalmente adattati da approcci basati sul linguaggio e si concentrano su conflitti a livello di contesto tramite strategie di prompting ingegnerizzate o meccanismi di decoding consapevoli del contesto. Tuttavia, questi metodi trascurano il ruolo cruciale dell'informazione visiva nei conflitti e soffrono di contesti recuperati ridondanti, che compromettono l'identificazione accurata dei conflitti e una mitigazione efficace. Per affrontare queste limitazioni, proponiamo CC-VQA: un nuovo metodo per KB-VQA, che non richiede training ed è consapevole dei conflitti e delle correlazioni. Il nostro metodo comprende due componenti principali: (1) Vision-Centric Contextual Conflict Reasoning, che esegue un'analisi dei conflitti visivo-semantici attraverso contesti di conoscenza interni ed esterni; e (2) Correlation-Guided Encoding and Decoding, che include la compressione della codifica posizionale per enunciati a bassa correlazione e un decoding adattivo che utilizza un punteggio dei conflitti ponderato per la correlazione. Valutazioni estensive sui benchmark E-VQA, InfoSeek e OK-VQA dimostrano che CC-VQA raggiunge prestazioni allo stato dell'arte, ottenendo miglioramenti assoluti di accuratezza dal 3,3% al 6,4% rispetto ai metodi esistenti. Il codice è disponibile all'indirizzo https://github.com/cqu-student/CC-VQA.

English

Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose CC-VQA: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.

CC-VQA: Metodo Consapevole dei Conflitti e delle Correlazioni per Mitigare i Conflitti di Conoscenza nel Visual Question Answering Basato su Conoscenza

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Abstract

Support