Évaluation comparative de la recherche d'images composées pour l'observation de la Terre appliquée
Benchmarking Composed Image Retrieval for Applied Earth Observation
May 23, 2026
Auteurs: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos
cs.AI
Résumé
La recherche d'images composées en télédétection (RSCIR) permet d'effectuer des recherches dans de vastes archives d'images satellite à l'aide de requêtes composées, combinant une image de référence avec un modificateur textuel. Bien que la RSCIR offre une interface flexible pour exprimer une intention de recherche ciblée, la transférabilité des méthodes de composition modernes aux images d'observation de la Terre (EO) et leur pertinence pour les flux de travail opérationnels en EO restent peu explorées. Nous comblons cette lacune grâce à un banc d'essai unifié et à une étude orientée applications. Tout d'abord, nous adaptons et évaluons systématiquement des méthodes représentatives de recherche d'images composées avec six architectures vision-langage sur PatternCom, selon un protocole standardisé, en analysant leur comportement à travers les architectures, les stratégies de composition et les types de requêtes. Ensuite, nous introduisons xView2-CIR, un ensemble de données centré sur les changements pour la surveillance des catastrophes et des dommages, où la recherche est conditionnée par l'identité de la scène et un état post-événement cible. Nos résultats montrent que les méthodes de composition sans entraînement fournissent des références solides et évolutives pour la recherche en EO, tandis que la recherche centrée sur les changements présente des défis différents de ceux de la recherche basée sur les attributs, notamment en raison de la nécessité de préserver l'identité de la scène. Globalement, cette étude établit un banc d'essai pratique pour la RSCIR et positionne la recherche composée comme un outil complémentaire pour la recherche d'images de télédétection, l'exploration d'archives et l'analyse des changements. L'ensemble de données et le code sont disponibles à l'adresse https://github.com/billpsomas/rscir.
English
Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.