Modèle d'espace d'état conditionné par le texte pour la détection de changements généralisée au domaine en question-réponse visuelle
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
papers.authors: Elman Ghazaei, Erchan Aptoula
cs.AI
papers.abstract
La surface de la Terre est en constante évolution, et la détection de ces changements offre des informations précieuses qui profitent à divers aspects de la société humaine. Bien que les méthodes traditionnelles de détection des changements aient été utilisées pour identifier les modifications à partir d'images bi-temporelles, ces approches nécessitent généralement une expertise pour une interprétation précise. Pour permettre un accès plus large et plus flexible aux informations sur les changements par des utilisateurs non experts, la tâche de Question-Réponse Visuelle pour la Détection des Changements (CDVQA) a été introduite. Cependant, les méthodes existantes de CDVQA ont été développées en supposant que les ensembles de données d'entraînement et de test partagent des distributions similaires. Cette hypothèse ne tient pas dans les applications réelles, où des décalages de domaine se produisent souvent. Dans cet article, la tâche CDVQA est revisitée en mettant l'accent sur la gestion des décalages de domaine. À cette fin, un nouveau jeu de données multi-modal et multi-domaine, BrightVQA, est introduit pour faciliter la recherche sur la généralisation de domaine en CDVQA. De plus, un nouveau modèle d'espace d'état, appelé Modèle d'Espace d'État Conditionné par le Texte (TCSSM), est proposé. Le cadre TCSSM est conçu pour exploiter à la fois les images bi-temporelles et les informations textuelles liées aux catastrophes géologiques de manière unifiée afin d'extraire des caractéristiques invariantes au domaine. Les paramètres dépendants de l'entrée dans TCSSM sont prédits dynamiquement en utilisant à la fois les images bi-temporelles et les descriptions liées aux catastrophes géologiques, facilitant ainsi l'alignement entre les données visuelles bi-temporelles et les descriptions textuelles associées. Des expériences approfondies sont menées pour évaluer la méthode proposée par rapport aux modèles de pointe, et une performance supérieure est systématiquement démontrée. Le code et le jeu de données seront rendus publics après acceptation à l'adresse https://github.com/Elman295/TCSSM.
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.