Бенчмаркинг поиска композитных изображений для прикладного дистанционного зондирования Земли
Benchmarking Composed Image Retrieval for Applied Earth Observation
May 23, 2026
Авторы: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos
cs.AI
Аннотация
Поиск составных изображений дистанционного зондирования (RSCIR) позволяет осуществлять поиск в больших архивах спутниковых снимков с помощью составных запросов, сочетающих эталонное изображение с текстовым модификатором. Хотя RSCIR обеспечивает гибкий интерфейс для выражения целенаправленного намерения поиска, переносимость современных методов композиции на данные наблюдения Земли (ДЗЗ) и их актуальность для операционных рабочих процессов ДЗЗ остаются недостаточно изученными. Мы восполняем этот пробел с помощью унифицированного эталона и прикладного исследования. Во-первых, мы систематически адаптируем и оцениваем репрезентативные методы поиска составных изображений с шестью базовыми моделями «зрение-язык» на наборе данных PatternCom в рамках стандартизированного протокола, анализируя их поведение в зависимости от базовых моделей, стратегий композиции и типов запросов. Во-вторых, мы представляем xView2-CIR — набор данных, ориентированный на изменения, для мониторинга катастроф и ущерба, где поиск обусловлен идентичностью сцены и целевым состоянием после события. Наши результаты показывают, что методы композиции без обучения обеспечивают надежные и масштабируемые базовые линии для поиска в ДЗЗ, в то время как поиск, ориентированный на изменения, представляет иные задачи по сравнению с поиском на основе атрибутов, особенно ввиду необходимости сохранения идентичности сцены. В целом, данное исследование устанавливает практический эталон для RSCIR и позиционирует составной поиск как дополнительный инструмент для поиска изображений дистанционного зондирования, исследования архивов и анализа изменений. Набор данных и код доступны по адресу https://github.com/billpsomas/rscir.
English
Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.