Benchmarking des Composed Image Retrieval für die angewandte Erdbeobachtung
Benchmarking Composed Image Retrieval for Applied Earth Observation
May 23, 2026
Autoren: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos
cs.AI
Zusammenfassung
Die zusammengesetzte Bildabfrage in der Fernerkundung (Remote Sensing Composed Image Retrieval, RSCIR) ermöglicht die Suche in großen Satellitenbildarchiven mittels zusammengesetzter Abfragen, die ein Referenzbild mit einer textuellen Modifikation kombinieren. Obwohl RSCIR eine flexible Schnittstelle zur Formulierung gezielter Suchabsichten bietet, sind die Übertragbarkeit moderner Kompositionsmethoden auf Erdbeobachtungsdaten (Earth Observation, EO) und deren Relevanz für operative EO-Workflows bisher unzureichend untersucht. Wir schließen diese Lücke durch eine einheitliche Benchmark und eine anwendungsorientierte Studie. Erstens passen wir repräsentative Methoden zur zusammengesetzten Bildabfrage mit sechs Vision-Language-Backbones auf PatternCom unter einem standardisierten Protokoll systematisch an und evaluieren sie, wobei wir ihr Verhalten hinsichtlich Backbones, Kompositionsstrategien und Abfragetypen analysieren. Zweitens führen wir xView2-CIR ein, einen änderungszentrierten Datensatz für Katastrophen- und Schadensüberwachung, bei dem die Abfrage auf die Szenenidentität und einen angestrebten Zustand nach dem Ereignis konditioniert ist. Unsere Ergebnisse zeigen, dass trainingsfreie Kompositionsmethoden starke und skalierbare Basislinien für die EO-Abfrage liefern, während die änderungszentrierte Abfrage andere Herausforderungen als die attributbasierte Abfrage mit sich bringt, insbesondere aufgrund der Notwendigkeit, die Szenenidentität zu bewahren. Insgesamt etabliert diese Studie eine praktische Benchmark für RSCIR und positioniert die zusammengesetzte Abfrage als komplementäres Werkzeug für die Fernerkundungsbildabfrage, Archivdurchsuchung und Änderungsanalyse. Der Datensatz und der Code sind verfügbar unter https://github.com/billpsomas/rscir.
English
Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.