Benchmarking van samengestelde beeldretrieval voor toegepaste aardobservatie
Benchmarking Composed Image Retrieval for Applied Earth Observation
May 23, 2026
Auteurs: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos
cs.AI
Samenvatting
Remote sensing samengestelde beeldterugvinding (RSCIR) maakt het mogelijk om te zoeken in grote archieven van satellietbeelden met behulp van samengestelde query's die een referentiebeeld combineren met een tekstuele modifier. Hoewel RSCIR een flexibele interface biedt voor het uitdrukken van gerichte terugvindintentie, blijven de overdraagbaarheid van moderne compositiemethoden naar aardobservatiebeelden (EO-beelden) en hun relevantie voor operationele EO-werkstromen onderbelicht. We vullen deze lacune door middel van een uniforme benchmark en een toepassingsgerichte studie. Ten eerste passen we systematisch representatieve methoden voor samengestelde beeldterugvinding aan en evalueren we deze met zes visie-taal-backbones op PatternCom onder een gestandaardiseerd protocol, waarbij we hun gedrag analyseren voor verschillende backbones, compositiestrategieën en querytypen. Ten tweede introduceren we xView2-CIR, een veranderingsgerichte dataset voor rampen- en schademonitoring, waarbij terugvinding wordt geconditioneerd op scène-identiteit en een beoogde toestand na de gebeurtenis. Onze resultaten tonen aan dat trainingsvrije compositiemethoden sterke en schaalbare basislijnen bieden voor EO-terugvinding, terwijl veranderingsgerichte terugvinding andere uitdagingen biedt dan attribuutgebaseerde terugvinding, met name vanwege de noodzaak om scène-identiteit te behouden. Over het geheel genomen stelt deze studie een praktische benchmark vast voor RSCIR en positioneert samengestelde terugvinding als een complementair hulpmiddel voor remote sensing beeldterugvinding, archiefverkenning en veranderingsanalyse. De dataset en code zijn beschikbaar op https://github.com/billpsomas/rscir.
English
Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.