テキスト条件付き状態空間モデルによるドメイン一般化変化検出視覚質問応答
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
著者: Elman Ghazaei, Erchan Aptoula
cs.AI
要旨
地球の表面は常に変化しており、これらの変化を検出することは、人間社会のさまざまな側面に有益な洞察を提供します。従来の変化検出手法は、二時相画像から変化を検出するために使用されてきましたが、これらのアプローチは通常、正確な解釈のために専門知識を必要とします。非専門家ユーザーが変化情報に広く柔軟にアクセスできるようにするために、変化検出視覚質問応答(CDVQA)タスクが導入されました。しかし、既存のCDVQA手法は、訓練データセットとテストデータセットが類似した分布を共有しているという仮定の下で開発されています。この仮定は、現実世界のアプリケーションでは成り立たず、ドメインシフトが頻繁に発生します。本論文では、ドメインシフトに対処することに焦点を当てて、CDVQAタスクを再検討します。この目的のために、CDVQAにおけるドメイン一般化研究を促進する新しいマルチモーダルかつマルチドメインのデータセット、BrightVQAを紹介します。さらに、テキスト条件付き状態空間モデル(TCSSM)と呼ばれる新しい状態空間モデルを提案します。TCSSMフレームワークは、二時相画像と地理災害関連のテキスト情報を統一的に活用して、ドメイン間で不変な特徴を抽出するように設計されています。TCSSMに存在する入力依存パラメータは、二時相画像と地理災害関連の説明の両方を使用して動的に予測され、それによって二時相視覚データと関連するテキスト記述の整合性が促進されます。提案手法を最先端のモデルと比較して評価するために広範な実験が行われ、一貫して優れた性能が実証されています。コードとデータセットは、受理後https://github.com/Elman295/TCSSMで公開されます。
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.