도메인 일반화 변화 탐지 시각 질의응답을 위한 텍스트 조건부 상태 공간 모델
Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
August 12, 2025
저자: Elman Ghazaei, Erchan Aptoula
cs.AI
초록
지구 표면은 끊임없이 변화하고 있으며, 이러한 변화를 탐지하는 것은 인간 사회의 다양한 측면에 유익한 통찰을 제공합니다. 전통적인 변화 탐지 방법은 이시점 이미지(bi-temporal images)를 통해 변화를 탐지하는 데 사용되어 왔지만, 이러한 접근 방식은 일반적으로 정확한 해석을 위해 전문가 지식을 요구합니다. 비전문가 사용자들이 변화 정보에 보다 광범위하고 유연하게 접근할 수 있도록 하기 위해, 변화 탐지 시각적 질의응답(Change Detection Visual Question Answering, CDVQA) 작업이 도입되었습니다. 그러나 기존의 CDVQA 방법들은 훈련 및 테스트 데이터셋이 유사한 분포를 공유한다는 가정 하에 개발되었습니다. 이러한 가정은 실제 응용에서는 도메인 이동(domain shift)이 자주 발생하기 때문에 유효하지 않습니다. 본 논문에서는 도메인 이동 문제를 해결하는 데 초점을 맞춰 CDVQA 작업을 재검토합니다. 이를 위해, CDVQA에서의 도메인 일반화 연구를 촉진하기 위해 새로운 다중 모달 및 다중 도메인 데이터셋인 BrightVQA를 소개합니다. 또한, 텍스트 조건 상태 공간 모델(Text-Conditioned State Space Model, TCSSM)이라는 새로운 상태 공간 모델을 제안합니다. TCSSM 프레임워크는 이시점 이미지와 지리적 재해 관련 텍스트 정보를 통합적으로 활용하여 도메인 간 불변 특징을 추출하도록 설계되었습니다. TCSSM에 존재하는 입력 의존 매개변수는 이시점 이미지와 지리적 재해 관련 설명을 모두 사용하여 동적으로 예측되며, 이를 통해 이시점 시각 데이터와 관련 텍스트 설명 간의 정렬을 용이하게 합니다. 제안된 방법을 최신 모델과 비교 평가하기 위해 광범위한 실험을 수행하였으며, 일관되게 우수한 성능을 입증하였습니다. 코드와 데이터셋은 논문 채택 후 https://github.com/Elman295/TCSSM에서 공개될 예정입니다.
English
The Earth's surface is constantly changing, and detecting these changes
provides valuable insights that benefit various aspects of human society. While
traditional change detection methods have been employed to detect changes from
bi-temporal images, these approaches typically require expert knowledge for
accurate interpretation. To enable broader and more flexible access to change
information by non-expert users, the task of Change Detection Visual Question
Answering (CDVQA) has been introduced. However, existing CDVQA methods have
been developed under the assumption that training and testing datasets share
similar distributions. This assumption does not hold in real-world
applications, where domain shifts often occur. In this paper, the CDVQA task is
revisited with a focus on addressing domain shift. To this end, a new
multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate
domain generalization research in CDVQA. Furthermore, a novel state space
model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The
TCSSM framework is designed to leverage both bi-temporal imagery and
geo-disaster-related textual information in an unified manner to extract
domain-invariant features across domains. Input-dependent parameters existing
in TCSSM are dynamically predicted by using both bi-temporal images and
geo-disaster-related description, thereby facilitating the alignment between
bi-temporal visual data and the associated textual descriptions. Extensive
experiments are conducted to evaluate the proposed method against
state-of-the-art models, and superior performance is consistently demonstrated.
The code and dataset will be made publicly available upon acceptance at
https://github.com/Elman295/TCSSM.