CC-VQA: Método Consciente de Conflictos y Correlaciones para Mitigar Conflictos de Conocimiento en la Respuesta a Preguntas Visuales Basada en Conocimiento

Resumen

La respuesta visual a preguntas basada en conocimiento (KB-VQA) demuestra un potencial significativo para manejar tareas que requieren gran cantidad de conocimiento. Sin embargo, surgen conflictos entre el conocimiento paramétrico estático en los modelos de lenguaje visual (VLMs) y la información recuperada dinámicamente, debido al conocimiento estático del modelo procedente del pre-entrenamiento. Las salidas pueden ignorar los contextos recuperados o exhibir una integración inconsistente con el conocimiento paramétrico, lo que plantea desafíos sustanciales para la KB-VQA. Los métodos actuales de mitigación de conflictos de conocimiento, adaptados principalmente de enfoques basados en lenguaje, se centran en conflictos a nivel de contexto mediante estrategias de *prompting* diseñadas o mecanismos de decodificación conscientes del contexto. No obstante, estos métodos descuidan el papel crítico de la información visual en los conflictos y adolecen de contextos recuperados redundantes, lo que perjudica la identificación precisa y la mitigación efectiva de los conflictos. Para abordar estas limitaciones, proponemos CC-VQA: un método novedoso, libre de entrenamiento, y consciente de conflictos y correlaciones para KB-VQA. Nuestro método comprende dos componentes principales: (1) Razonamiento de Conflictos Contextuales Centrado en la Visión, que realiza un análisis de conflictos visual-semánticos a través de contextos de conocimiento internos y externos; y (2) Codificación y Decodificación Guiada por Correlaciones, que presenta compresión de codificación posicional para enunciados de baja correlación y decodificación adaptativa utilizando una puntuación de conflictos ponderada por correlaciones. Evaluaciones exhaustivas en los benchmarks E-VQA, InfoSeek y OK-VQA demuestran que CC-VQA logra un rendimiento de vanguardia, produciendo mejoras de precisión absoluta del 3.3% al 6.4% en comparación con los métodos existentes. El código está disponible en https://github.com/cqu-student/CC-VQA.

English

Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose CC-VQA: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.

CC-VQA: Método Consciente de Conflictos y Correlaciones para Mitigar Conflictos de Conocimiento en la Respuesta a Preguntas Visuales Basada en Conocimiento

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Resumen

Support