Modelo de Espaço de Estados Condicionado por Texto para Detecção de Mudanças Generalizada por Domínio em Respostas a Perguntas Visuais
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
Autores: Elman Ghazaei, Erchan Aptoula
cs.AI
Resumo
A superfície da Terra está em constante mudança, e a detecção dessas mudanças fornece insights valiosos que beneficiam diversos aspectos da sociedade humana. Embora métodos tradicionais de detecção de mudanças tenham sido empregados para identificar alterações em imagens bi-temporais, essas abordagens geralmente exigem conhecimento especializado para uma interpretação precisa. Para permitir um acesso mais amplo e flexível às informações de mudança por usuários não especialistas, a tarefa de Visual Question Answering para Detecção de Mudanças (CDVQA) foi introduzida. No entanto, os métodos existentes de CDVQA foram desenvolvidos sob a suposição de que os conjuntos de dados de treinamento e teste compartilham distribuições semelhantes. Essa suposição não se mantém em aplicações do mundo real, onde mudanças de domínio frequentemente ocorrem. Neste artigo, a tarefa de CDVQA é revisitada com foco na abordagem de mudanças de domínio. Para tanto, um novo conjunto de dados multimodal e multidomínio, BrightVQA, é introduzido para facilitar a pesquisa em generalização de domínio em CDVQA. Além disso, um novo modelo de espaço de estados, denominado Modelo de Espaço de Estados Condicionado por Texto (TCSSM), é proposto. O framework TCSSM foi projetado para aproveitar tanto imagens bi-temporais quanto informações textuais relacionadas a geo-desastres de maneira unificada, extraindo características invariantes ao domínio. Parâmetros dependentes da entrada existentes no TCSSM são dinamicamente previstos usando tanto imagens bi-temporais quanto descrições relacionadas a geo-desastres, facilitando assim o alinhamento entre dados visuais bi-temporais e as descrições textuais associadas. Experimentos extensivos foram conduzidos para avaliar o método proposto em comparação com modelos state-of-the-art, e um desempenho superior foi consistentemente demonstrado. O código e o conjunto de dados serão disponibilizados publicamente após a aceitação em https://github.com/Elman295/TCSSM.
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.