Tekstgeconditioneerd Toestandsruimtemodel Voor Domeingegeneraliseerde Veranderingsdetectie Visuele Vraagbeantwoording
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
Auteurs: Elman Ghazaei, Erchan Aptoula
cs.AI
Samenvatting
Het aardoppervlak verandert voortdurend, en het detecteren van deze veranderingen biedt waardevolle inzichten die ten goede komen aan verschillende aspecten van de menselijke samenleving. Hoewel traditionele methoden voor veranderingsdetectie zijn gebruikt om veranderingen in bi-temporele beelden te detecteren, vereisen deze benaderingen doorgaans expertkennis voor een nauwkeurige interpretatie. Om bredere en flexibelere toegang tot veranderingsinformatie mogelijk te maken voor niet-experts, is de taak van Change Detection Visual Question Answering (CDVQA) geïntroduceerd. Bestaande CDVQA-methoden zijn echter ontwikkeld onder de aanname dat trainings- en testdatasets vergelijkbare verdelingen hebben. Deze aanname gaat niet op in real-world toepassingen, waar domeinverschuivingen vaak voorkomen. In dit artikel wordt de CDVQA-taak opnieuw bekeken met de focus op het aanpakken van domeinverschuiving. Hiertoe wordt een nieuwe multimodale en multidomein dataset, BrightVQA, geïntroduceerd om domeingeneralistatieonderzoek in CDVQA te faciliteren. Verder wordt een nieuw state space model, genaamd Text-Conditioned State Space Model (TCSSM), voorgesteld. Het TCSSM-framework is ontworpen om zowel bi-temporele beelden als geo-rampgerelateerde tekstuele informatie op een geïntegreerde manier te benutten om domeinonafhankelijke kenmerken over domeinen heen te extraheren. Invoerafhankelijke parameters in TCSSM worden dynamisch voorspeld door zowel bi-temporele beelden als geo-rampgerelateerde beschrijvingen te gebruiken, waardoor de afstemming tussen bi-temporele visuele data en de bijbehorende tekstuele beschrijvingen wordt gefaciliteerd. Uitgebreide experimenten worden uitgevoerd om de voorgestelde methode te evalueren tegen state-of-the-art modellen, en superieure prestaties worden consistent aangetoond. De code en dataset zullen na acceptatie openbaar gemaakt worden op https://github.com/Elman295/TCSSM.
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.