CC-VQA: метод учета конфликтов и корреляций для снижения конфликта знаний в системах визуального ответа на вопросы, основанных на знаниях

Аннотация

Визуальное ответы на вопросы на основе знаний (KB-VQA) демонстрируют значительный потенциал для решения задач, требующих интенсивного использования знаний. Однако возникают конфликты между статическими параметрическими знаниями в моделях «визуальный язык» (VLM) и динамически извлекаемой информацией из-за статичности знаний модели, полученных на этапе предварительного обучения. Выходные данные либо игнорируют извлеченный контекст, либо демонстрируют несогласованную интеграцию с параметрическими знаниями, что создает серьезные проблемы для KB-VQA. Современные методы смягчения конфликтов знаний в основном адаптированы из подходов, основанных на языке, и сосредоточены на конфликтах на уровне контекста с помощью специальных промптинговых стратегий или механизмов декодирования с учетом контекста. Однако эти методы игнорируют критически важную роль визуальной информации в конфликтах и страдают от избыточности извлекаемого контекста, что мешает точному определению конфликтов и их эффективному устранению. Для преодоления этих ограничений мы предлагаем CC-VQA: новый не требующий дообучения метод для KB-VQA, учитывающий конфликты и корреляции. Наш метод состоит из двух ключевых компонентов: (1) Визуально-центричное контекстуальное разрешение конфликтов, которое выполняет визуально-семантический анализ конфликтов во внутренних и внешних контекстах знаний; и (2) Кодирование и декодирование с управлением корреляциями, включающее компрессию позиционного кодирования для утверждений с низкой корреляцией и адаптивное декодирование с использованием взвешенной по корреляциям оценки конфликтов. Обширные оценки на бенчмарках E-VQA, InfoSeek и OK-VQA демонстрируют, что CC-VQA достигает наилучшей производительности, обеспечивая абсолютное улучшение точности на 3,3\%–6,4\% по сравнению с существующими методами. Код доступен по адресу https://github.com/cqu-student/CC-VQA.

English

Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose CC-VQA: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.

CC-VQA: метод учета конфликтов и корреляций для снижения конфликта знаний в системах визуального ответа на вопросы, основанных на знаниях

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Аннотация

Support