Modello a Spazio degli Stati Condizionato dal Testo per il Rilevamento del Cambiamento Generalizzato al Dominio nel Visual Question Answering
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
Autori: Elman Ghazaei, Erchan Aptoula
cs.AI
Abstract
La superficie terrestre è in costante cambiamento, e rilevare queste trasformazioni fornisce preziose informazioni che beneficiano vari aspetti della società umana. Sebbene i metodi tradizionali di rilevamento dei cambiamenti siano stati impiegati per individuare variazioni da immagini bi-temporali, questi approcci richiedono tipicamente conoscenze specialistiche per un'interpretazione accurata. Per consentire un accesso più ampio e flessibile alle informazioni sui cambiamenti da parte di utenti non esperti, è stata introdotta la task di Change Detection Visual Question Answering (CDVQA). Tuttavia, i metodi CDVQA esistenti sono stati sviluppati presupponendo che i dataset di addestramento e test condividano distribuzioni simili. Questa ipotesi non è valida nelle applicazioni reali, dove spesso si verificano spostamenti di dominio. In questo articolo, la task CDVQA viene rivisitata con un focus sulla gestione dello spostamento di dominio. A tal fine, viene introdotto un nuovo dataset multi-modale e multi-dominio, BrightVQA, per facilitare la ricerca sulla generalizzazione di dominio in CDVQA. Inoltre, viene proposto un nuovo modello a spazio di stati, denominato Text-Conditioned State Space Model (TCSSM). Il framework TCSSM è progettato per sfruttare sia le immagini bi-temporali che le informazioni testuali relative ai disastri geologici in modo unificato, al fine di estrarre caratteristiche invarianti al dominio. I parametri dipendenti dall'input presenti nel TCSSM sono previsti dinamicamente utilizzando sia le immagini bi-temporali che le descrizioni relative ai disastri geologici, facilitando così l'allineamento tra i dati visivi bi-temporali e le relative descrizioni testuali. Sono stati condotti esperimenti approfonditi per valutare il metodo proposto rispetto ai modelli all'avanguardia, dimostrando prestazioni superiori in modo consistente. Il codice e il dataset saranno resi pubblicamente disponibili al momento dell'accettazione all'indirizzo https://github.com/Elman295/TCSSM.
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.