Benchmarking da Recuperação de Imagens Compostas para Observação da Terra Aplicada
Benchmarking Composed Image Retrieval for Applied Earth Observation
May 23, 2026
Autores: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos
cs.AI
Resumo
A recuperação de imagens compostas por sensoriamento remoto (RSCIR) permite a busca em grandes arquivos de imagens de satélite utilizando consultas compostas que combinam uma imagem de referência com um modificador textual. Embora o RSCIR ofereça uma interface flexível para expressar intenções de recuperação direcionadas, a transferibilidade dos métodos modernos de composição para imagens de observação da Terra (OT) e sua relevância para fluxos de trabalho operacionais de OT permanecem pouco exploradas. Abordamos essa lacuna por meio de um referencial unificado e um estudo orientado a aplicações. Primeiro, adaptamos e avaliamos sistematicamente métodos representativos de recuperação de imagens compostas com seis backbones visão-linguagem no PatternCom sob um protocolo padronizado, analisando seu comportamento em diferentes backbones, estratégias de composição e tipos de consulta. Em segundo lugar, introduzimos o xView2-CIR, um conjunto de dados centrado em mudanças para monitoramento de desastres e danos, onde a recuperação é condicionada à identidade da cena e a um estado pós-evento alvo. Nossos resultados mostram que métodos de composição sem treinamento fornecem baselines fortes e escaláveis para recuperação em OT, enquanto a recuperação centrada em mudanças apresenta desafios diferentes da recuperação baseada em atributos, particularmente devido à necessidade de preservar a identidade da cena. No geral, este estudo estabelece um referencial prático para RSCIR e posiciona a recuperação composta como uma ferramenta complementar para recuperação de imagens de sensoriamento remoto, exploração de arquivos e análise de mudanças. O conjunto de dados e o código estão disponíveis em https://github.com/billpsomas/rscir.
English
Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.