CC-VQA: Konflikt- und Korrelationsbewusste Methode zur Minderung von Wissenskonflikten beim wissensbasierten visuellen Frage-Antwort-System

Zusammenfassung

Wissensbasiertes visuelles Frage-Antworten (KB-VQA) zeigt ein erhebliches Potenzial für die Bewältigung von wissensintensiven Aufgaben. Allerdings entstehen Konflikte zwischen dem statischen parametrischen Wissen in visuell-sprachlichen Modellen (VLMs) und dynamisch abgerufenen Informationen, bedingt durch das statische Modellwissen aus dem Vorab-Training. Die Ausgaben ignorieren entweder abgerufene Kontexte oder zeigen eine inkonsistente Integration mit parametrischem Wissen, was erhebliche Herausforderungen für KB-VQA darstellt. Aktuelle Methoden zur Milderung von Wissenskonflikten, die hauptsächlich von textbasierten Ansätzen adaptiert wurden, konzentrieren sich auf Konflikt-Ebene des Kontextes durch konstruierte Prompting-Strategien oder kontextbewusste Decodierungsmechanismen. Diese Methoden vernachlässigen jedoch die entscheidende Rolle visueller Informationen bei Konflikten und leiden unter redundanten abgerufenen Kontexten, was eine genaue Konfliktidentifikation und effektive Minderung beeinträchtigt. Um diese Einschränkungen zu adressieren, schlagen wir CC-VQA vor: eine neuartige, trainingsfreie, konflikt- und korrelationsbewusste Methode für KB-VQA. Unsere Methode umfasst zwei Kernkomponenten: (1) Vision-zentrierte kontextuelle Konfliktanalyse, die eine visuell-semantische Konfliktanalyse über interne und externe Wissenskontexte hinweg durchführt; und (2) Korrelationsgesteuerte Encodierung und Decodierung, mit positionsbasierter Encodierungskompression für Aussagen mit geringer Korrelation und adaptiver Decodierung unter Verwendung von korrelationsgewichteten Konfliktscores. Umfangreiche Auswertungen auf den E-VQA-, InfoSeek- und OK-VQA-Benchmarks zeigen, dass CC-VQA state-of-the-art Leistung erzielt und absolute Genauigkeitsverbesserungen von 3,3 % bis 6,4 % im Vergleich zu bestehenden Methoden erreicht. Der Code ist verfügbar unter https://github.com/cqu-student/CC-VQA.

English

Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose CC-VQA: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.

CC-VQA: Konflikt- und Korrelationsbewusste Methode zur Minderung von Wissenskonflikten beim wissensbasierten visuellen Frage-Antwort-System

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Zusammenfassung

Support