Модель пространства состояний с текстовым условием для обобщенного на различные домены обнаружения изменений в визуальном вопросе-ответе
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
Авторы: Elman Ghazaei, Erchan Aptoula
cs.AI
Аннотация
Поверхность Земли постоянно изменяется, и обнаружение этих изменений предоставляет ценные данные, которые приносят пользу различным аспектам человеческого общества. Хотя традиционные методы обнаружения изменений использовались для выявления изменений на битемпоральных изображениях, эти подходы обычно требуют экспертных знаний для точной интерпретации. Чтобы обеспечить более широкий и гибкий доступ к информации об изменениях для неэкспертных пользователей, была введена задача визуального ответа на вопросы по обнаружению изменений (Change Detection Visual Question Answering, CDVQA). Однако существующие методы CDVQA разрабатывались в предположении, что обучающие и тестовые наборы данных имеют схожие распределения. Это предположение не выполняется в реальных приложениях, где часто происходят сдвиги доменов. В данной статье задача CDVQA пересматривается с акцентом на решение проблемы сдвига доменов. Для этого вводится новый мультимодальный и мультидоменный набор данных BrightVQA, который способствует исследованиям в области обобщения доменов в CDVQA. Кроме того, предлагается новая модель пространства состояний, названная текстово-условной моделью пространства состояний (Text-Conditioned State Space Model, TCSSM). Фреймворк TCSSM разработан для совместного использования битемпоральных изображений и текстовой информации, связанной с геокатастрофами, с целью извлечения доменно-инвариантных признаков между доменами. Параметры, зависящие от входных данных в TCSSM, динамически предсказываются с использованием как битемпоральных изображений, так и описаний, связанных с геокатастрофами, что способствует согласованию битемпоральных визуальных данных и связанных с ними текстовых описаний. Проведены обширные эксперименты для оценки предложенного метода в сравнении с современными моделями, и продемонстрировано стабильно превосходное качество работы. Код и набор данных будут опубликованы в открытом доступе после принятия статьи по адресу https://github.com/Elman295/TCSSM.
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.