CC-VQA : Méthode tenant compte des conflits et des corrélations pour atténuer les conflits de connaissances dans la réponse aux questions visuelles basée sur les connaissances

Résumé

La réponse visuelle aux questions basée sur les connaissances (KB-VQA) démontre un potentiel significatif pour traiter des tâches nécessitant une expertise poussée. Cependant, des conflits émergent entre les connaissances paramétriques statiques des modèles vision-langage (VLM) et les informations récupérées dynamiquement, en raison de la nature figée des connaissances issues du pré-entraînement. Les sorties ignorent soit les contextes récupérés, soit présentent une intégration incohérente avec les connaissances paramétriques, ce qui pose des défis majeurs pour la KB-VQA. Les méthodes actuelles d'atténuation des conflits de connaissances, principalement adaptées des approches linguistiques, se concentrent sur les conflits au niveau contextuel via des stratégies d'invitation élaborées ou des mécanismes de décodage sensibles au contexte. Cependant, ces méthodes négligent le rôle crucial de l'information visuelle dans les conflits et souffrent de contextes récupérés redondants, ce qui nuit à l'identification précise des conflits et à leur atténuation efficace. Pour remédier à ces limitations, nous proposons CC-VQA : une méthode nouvelle, sans entraînement, consciente des conflits et des corrélations pour la KB-VQA. Notre méthode comprend deux composants principaux : (1) un Raisonnement Contextuel des Conflits Centré sur la Vision, qui effectue une analyse des conflits visio-sémantiques dans les contextes de connaissances internes et externes ; et (2) un Encodage et Décodage Guidé par les Corrélations, comprenant une compression de l'encodage positionnel pour les énoncés à faible corrélation et un décodage adaptatif utilisant une pondération des conflits basée sur les corrélations. Des évaluations approfondies sur les benchmarks E-VQA, InfoSeek et OK-VQA démontrent que CC-VQA atteint des performances à la pointe de l'état de l'art, obtenant des améliorations absolues de précision de 3,3 % à 6,4 % par rapport aux méthodes existantes. Le code est disponible à l'adresse https://github.com/cqu-student/CC-VQA.

English

Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose CC-VQA: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.

CC-VQA : Méthode tenant compte des conflits et des corrélations pour atténuer les conflits de connaissances dans la réponse aux questions visuelles basée sur les connaissances

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Résumé

Support