응용 지구 관측을 위한 구성 이미지 검색 벤치마킹
Benchmarking Composed Image Retrieval for Applied Earth Observation
May 23, 2026
저자: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos
cs.AI
초록
원격탐사 구성 이미지 검색(RSCIR)은 참조 이미지와 텍스트 수식어를 결합한 구성 질의를 통해 대규모 위성 이미지 아카이브를 검색할 수 있게 해준다. RSCIR은 목표 검색 의도를 표현하는 유연한 인터페이스를 제공하지만, 현대의 구성 방법이 지구 관측(EO) 영상으로 전이될 수 있는지와 운영적 EO 워크플로우와의 관련성은 아직 충분히 연구되지 않았다. 본 연구는 통합된 벤치마크와 응용 중심 연구를 통해 이러한 격차를 해소한다. 첫째, 표준화된 프로토콜 하에 PatternCom에서 여섯 가지 시각-언어 백본을 사용한 대표적인 구성 이미지 검색 방법을 체계적으로 적용 및 평가하여, 백본, 구성 전략, 질의 유형에 따른 동작을 분석한다. 둘째, 재난 및 피해 모니터링을 위한 변화 중심 데이터셋인 xView2-CIR을 소개하며, 여기서 검색은 현장 정체성과 목표 사후 상태에 조건화된다. 실험 결과, 학습 없는 구성 방법은 EO 검색에 강력하고 확장 가능한 기준선을 제공하는 반면, 변화 중심 검색은 특히 현장 정체성 유지 필요성으로 인해 속성 기반 검색과는 다른 과제를 제시한다. 전반적으로 본 연구는 RSCIR을 위한 실용적인 벤치마크를 구축하고, 구성 검색을 원격탐사 이미지 검색, 아카이브 탐색, 변화 분석을 위한 보완 도구로 자리매김한다. 데이터셋과 코드는 https://github.com/billpsomas/rscir에서 확인할 수 있다.
English
Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.