Text-konditioniertes Zustandsraummodell für domänenverallgemeinerte Veränderungserkennung bei visueller Fragebeantwortung
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
papers.authors: Elman Ghazaei, Erchan Aptoula
cs.AI
papers.abstract
Die Erdoberfläche unterliegt ständigen Veränderungen, und die Erkennung dieser Veränderungen liefert wertvolle Erkenntnisse, die verschiedene Aspekte der menschlichen Gesellschaft bereichern. Während traditionelle Methoden zur Veränderungserkennung eingesetzt wurden, um Veränderungen aus bi-temporalen Bildern zu detektieren, erfordern diese Ansätze in der Regel Fachwissen für eine genaue Interpretation. Um einen breiteren und flexibleren Zugang zu Veränderungsinformationen für nicht-experimentelle Nutzer zu ermöglichen, wurde die Aufgabe der Change Detection Visual Question Answering (CDVQA) eingeführt. Bisherige CDVQA-Methoden wurden jedoch unter der Annahme entwickelt, dass Trainings- und Testdatensätze ähnliche Verteilungen aufweisen. Diese Annahme trifft in realen Anwendungen nicht zu, wo Domänenverschiebungen häufig auftreten. In diesem Beitrag wird die CDVQA-Aufgabe mit dem Fokus auf die Bewältigung von Domänenverschiebungen neu betrachtet. Zu diesem Zweck wird ein neuer multi-modaler und multi-domänen Datensatz, BrightVQA, eingeführt, um die Forschung zur Domänengeneralisierung in CDVQA zu fördern. Darüber hinaus wird ein neuartiges Zustandsraummodell, das sogenannte Text-Conditioned State Space Model (TCSSM), vorgeschlagen. Das TCSSM-Framework ist darauf ausgelegt, sowohl bi-temporale Bilddaten als auch geokatastrophenbezogene Textinformationen auf einheitliche Weise zu nutzen, um domäneninvariante Merkmale über verschiedene Domänen hinweg zu extrahieren. Eingangsabhängige Parameter im TCSSM werden dynamisch unter Verwendung sowohl bi-temporaler Bilder als auch geokatastrophenbezogener Beschreibungen vorhergesagt, wodurch die Ausrichtung zwischen bi-temporalen visuellen Daten und den zugehörigen Textbeschreibungen erleichtert wird. Umfangreiche Experimente werden durchgeführt, um die vorgeschlagene Methode im Vergleich zu state-of-the-art Modellen zu bewerten, und es wird durchgängig eine überlegene Leistung demonstriert. Der Code und der Datensatz werden nach der Annahme unter https://github.com/Elman295/TCSSM öffentlich zugänglich gemacht.
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.