ChatPaper.aiChatPaper

Evaluación comparativa de la recuperación de imágenes compuestas para la observación de la Tierra aplicada

Benchmarking Composed Image Retrieval for Applied Earth Observation

May 23, 2026
Autores: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos
cs.AI

Resumen

La recuperación de imágenes compuestas por teledetección (RSCIR) permite realizar búsquedas en grandes archivos de imágenes satelitales mediante consultas compuestas que combinan una imagen de referencia con un modificador textual. Aunque RSCIR ofrece una interfaz flexible para expresar intenciones de recuperación específicas, la transferibilidad de los métodos modernos de composición a imágenes de observación de la Tierra (EO) y su relevancia para los flujos de trabajo operativos de EO siguen siendo poco exploradas. Abordamos esta brecha mediante un punto de referencia unificado y un estudio orientado a aplicaciones. Primero, adaptamos y evaluamos sistemáticamente métodos representativos de recuperación de imágenes compuestas con seis backbones de visión-lenguaje en PatternCom bajo un protocolo estandarizado, analizando su comportamiento en diferentes backbones, estrategias de composición y tipos de consulta. Segundo, presentamos xView2-CIR, un conjunto de datos centrado en cambios para el monitoreo de desastres y daños, donde la recuperación está condicionada por la identidad de la escena y un estado objetivo posterior al evento. Nuestros resultados muestran que los métodos de composición sin entrenamiento proporcionan líneas base sólidas y escalables para la recuperación en EO, mientras que la recuperación centrada en cambios presenta desafíos diferentes a los de la recuperación basada en atributos, particularmente debido a la necesidad de preservar la identidad de la escena. En general, este estudio establece un punto de referencia práctico para RSCIR y posiciona la recuperación compuesta como una herramienta complementaria para la recuperación de imágenes de teledetección, la exploración de archivos y el análisis de cambios. El conjunto de datos y el código están disponibles en https://github.com/billpsomas/rscir.
English
Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.