CC-VQA: Conflict- en Correlatiebewuste Methode voor het Verminderen van Kennisconflicten bij Kennisgebaseerd Visueel Vragen Beantwoorden

Samenvatting

Kennisgebaseerd visueel vraag-antwoord (KB-VQA) toont aanzienlijk potentieel voor het afhandelen van kennisintensieve taken. Er ontstaan echter conflicten tussen de statische parametrische kennis in visuele-taalmodelen (VLM's) en dynamisch opgehaalde informatie, als gevolg van de statische modelkennis uit de voorafgaande training. De uitvoer negeert ofwel de opgehaalde contexten, of vertoont een inconsistente integratie met parametrische kennis, wat aanzienlijke uitdagingen vormt voor KB-VQA. Huidige methoden om kennisconflicten te verzachten zijn voornamelijk aangepast vanuit taalkundige benaderingen en richten zich op conflicten op contextniveau via geëngineerde promptstrategieën of contextbewuste decodeermechanismen. Deze methoden verwaarlozen echter de cruciale rol van visuele informatie bij conflicten en hebben last van redundante opgehaalde contexten, wat een accurate conflictidentificatie en effectieve mitigatie belemmert. Om deze beperkingen aan te pakken, stellen we CC-VQA voor: een nieuwe trainingsvrije, conflict- en correlatiebewuste methode voor KB-VQA. Onze methode omvat twee kerncomponenten: (1) Visie-centraal contextueel conflictredeneren, dat visueel-semantische conflictanalyse uitvoert over interne en externe kenniscontexten; en (2) Correlatie-gestuurd coderen en decoderen, met positionele coderingscompressie voor uitspraken met lage correlatie en adaptief decoderen met behulp van correlatie-gewogen conflictscores. Uitgebreide evaluaties op de E-VQA, InfoSeek en OK-VQA benchmarks tonen aan dat CC-VQA state-of-the-art prestaties bereikt, met absolute nauwkeurigheidsverbeteringen van 3,3% tot 6,4% in vergelijking met bestaande methoden. Code is beschikbaar op https://github.com/cqu-student/CC-VQA.

English

Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose CC-VQA: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.

CC-VQA: Conflict- en Correlatiebewuste Methode voor het Verminderen van Kennisconflicten bij Kennisgebaseerd Visueel Vragen Beantwoorden

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Samenvatting

Support